【发布时间】:2020-01-09 10:40:25
【问题描述】:
我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。
我对@987654321@ 输出感兴趣,但只能成功获取纯文本格式的输出。
按照wiki 和code,我正在尝试使用X-Tika-OCR... HTTP 标头配置Tesseract。在这种情况下,我使用的是X-Tika-OCRoutputType: hocr HTTP 标头,但我得到的是没有 HOCR 标记的纯文本输出或 html 输出。
我尝试了/tika 和/rmeta 端点。
我使用的curl 命令:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
我还尝试将 Accept 标头设置为 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个出错了。
我正在使用:
- Apache Tika 1.22
- Tesseract 4.1.0-3.1.x86_64
- 红帽 7
【问题讨论】:
标签: tesseract apache-tika tika-server hocr