# pdf2html PDF 批量转换工具,支持转换为 HTML 或 Word 文档(.docx) ## 功能 - **pdf2html**: 将 PDF 转换为 HTML 格式(使用 pdf2htmlEX) - **pdf2docs**: 将 PDF 转换为 Word 文档(.docx),保留原始排版(使用 LibreOffice) ## 使用方法 ### 构建镜像 ```bash docker build --pull --rm -f "Dockerfile" -t pdf2html:latest . ``` ### 创建别名(可选) ```bash alias pdf2html='docker run --rm -it -v `pwd`:/app pdf2html:latest' ``` ### 转换为 HTML(默认) ```bash docker run --rm -it -v `pwd`:/app pdf2html:latest --mode html # 或使用别名 pdf2html --mode html ``` 输出文件保存在 `htmls/` 目录 ### 转换为 Word 文档 ```bash docker run --rm -it -v `pwd`:/app pdf2html:latest --mode docx # 或使用别名 pdf2html --mode docx ``` 输出文件保存在 `docs/` 目录 ## 参数说明 - `--mode`: 转换模式 - `html` (默认): 转换为 HTML 格式 - `docx`: 转换为 Word 文档格式 ## 输出目录 - HTML 文件: `htmls/` - Word 文档: `docs/` ## 依赖 - pdf2htmlEX: PDF 转 HTML - LibreOffice: PDF 转 Word 文档 ## Reference - [lyq/word2html](https://git.yoqi.me/lyq/word2html)