pdf批量转html docker 镜像

liuyuqi-cnb ed5d5eb382 Add pdf2docs functionality using LibreOffice 1 week ago
.dockerignore 089d850cff Automatic Commit By liuyuqi 2 years ago
Dockerfile ed5d5eb382 Add pdf2docs functionality using LibreOffice 1 week ago
README.md ed5d5eb382 Add pdf2docs functionality using LibreOffice 1 week ago
docker-compose.debug.yml ed5d5eb382 Add pdf2docs functionality using LibreOffice 1 week ago
docker-compose.yml ed5d5eb382 Add pdf2docs functionality using LibreOffice 1 week ago
main.py ed5d5eb382 Add pdf2docs functionality using LibreOffice 1 week ago

README.md

pdf2html

PDF 批量转换工具,支持转换为 HTML 或 Word 文档(.docx)

功能

  • pdf2html: 将 PDF 转换为 HTML 格式(使用 pdf2htmlEX)
  • pdf2docs: 将 PDF 转换为 Word 文档(.docx),保留原始排版(使用 LibreOffice)

使用方法

构建镜像

docker build --pull --rm -f "Dockerfile" -t pdf2html:latest .

创建别名(可选)

alias pdf2html='docker run --rm -it -v `pwd`:/app pdf2html:latest'

转换为 HTML(默认)

docker run --rm -it -v `pwd`:/app pdf2html:latest --mode html
# 或使用别名
pdf2html --mode html

输出文件保存在 htmls/ 目录

转换为 Word 文档

docker run --rm -it -v `pwd`:/app pdf2html:latest --mode docx
# 或使用别名
pdf2html --mode docx

输出文件保存在 docs/ 目录

参数说明

  • --mode: 转换模式
    • html (默认): 转换为 HTML 格式
    • docx: 转换为 Word 文档格式

输出目录

  • HTML 文件: htmls/
  • Word 文档: docs/

依赖

  • pdf2htmlEX: PDF 转 HTML
  • LibreOffice: PDF 转 Word 文档