# pdf2html
PDF 批量转换工具,支持转换为 HTML 或 Word 文档(.docx)
## 功能
- **pdf2html**: 将 PDF 转换为 HTML 格式(使用 pdf2htmlEX)
- **pdf2docs**: 将 PDF 转换为 Word 文档(.docx),保留原始排版(使用 LibreOffice)
## 使用方法
### 构建镜像
```bash
docker build --pull --rm -f "Dockerfile" -t pdf2html:latest .
```
### 创建别名(可选)
```bash
alias pdf2html='docker run --rm -it -v `pwd`:/app pdf2html:latest'
```
### 转换为 HTML(默认)
```bash
docker run --rm -it -v `pwd`:/app pdf2html:latest --mode html
# 或使用别名
pdf2html --mode html
```
输出文件保存在 `htmls/` 目录
### 转换为 Word 文档
```bash
docker run --rm -it -v `pwd`:/app pdf2html:latest --mode docx
# 或使用别名
pdf2html --mode docx
```
输出文件保存在 `docs/` 目录
## 参数说明
- `--mode`: 转换模式
- `html` (默认): 转换为 HTML 格式
- `docx`: 转换为 Word 文档格式
## 输出目录
- HTML 文件: `htmls/`
- Word 文档: `docs/`
## 依赖
- pdf2htmlEX: PDF 转 HTML
- LibreOffice: PDF 转 Word 文档