【问题标题】:getting hocr output from tika-server从 tika-server 获取 hocr 输出
【发布时间】:2020-01-09 10:40:25
【问题描述】:

我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。

我对@9​​87654321@ 输出感兴趣,但只能成功获取纯文本格式的输出。

按照wikicode,我正在尝试使用X-Tika-OCR... HTTP 标头配置Tesseract。在这种情况下,我使用的是X-Tika-OCRoutputType: hocr HTTP 标头,但我得到的是没有 HOCR 标记的纯文本输出或 html 输出。

我尝试了/tika/rmeta 端点。

我使用的curl 命令:

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

我还尝试将 Accept 标头设置为 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个出错了。

我正在使用:

  • Apache Tika 1.22
  • Tesseract 4.1.0-3.1.x86_64
  • 红帽 7

【问题讨论】:

    标签: tesseract apache-tika tika-server hocr


    【解决方案1】:

    通过检查 TikaResourceTest 的集成测试代码,我意识到缺少 HTTP 标头。正确的命令应包含X-Tika-PDFOcrStrategy: ocr_only HTTP 标头。在ocrpdf parser docs 中查看更多信息

    因此,命令将是:

    curl -v -X PUT \
         --data-binary @file.pdf \
         -H "Content-Type: application/pdf" \
         -H "X-Tika-PDFOcrStrategy: ocr_only" \
         -H "X-Tika-OCROutputType: hocr" \
         "http://tika-server:8081/tika"
    
    

    【讨论】:

      猜你喜欢
      • 2016-03-18
      • 2022-07-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多