【问题标题】:Tika Server not reading embedded images in PDFsTika Server 不读取 PDF 中的嵌入图像
【发布时间】:2021-03-10 17:24:30
【问题描述】:

您好,Tika Server 已使用 tesseract 设置,但仍无法读取 PDF 中的嵌入图像。尝试使用可用的两个标头,但没有帮助。

这仅适用于 PDF 文件。同时,OCR 也适用于其他文件类型/图像。

在此处使用自定义的 docker 容器。奇怪的是,部署在另一台机器上的同一个容器可以工作。 有没有低级问题的可能?

更新: 比较日志后,OCP 似乎正在将自定义 HTTP 标头小写,例如 X-Tika...、Postman-Token 到 x-tika...、postman-token 等。有人可以帮我解决可能的问题吗?

【问题讨论】:

  • Docker 容器的一个特点是它们包含电池,并且在任何地方都运行相同......你确定你在两台机器上运行相同的容器,具有相同的环境传入的变量?
  • 是的。虽然一个在 Kubernetes 上运行,一个在 OCP 上。并且没有额外的环境变量。

标签: openshift tesseract apache-tika rhel7 tika-server


【解决方案1】:

似乎 OCP 将自定义标头小写是问题的原因。 TikaServer 1.25 不支持不区分大小写的 X-Tika 标头。

我已在 Tika Server 1.26 中修复它。 参考:https://tika.apache.org/1.26/index.html https://issues.apache.org/jira/browse/TIKA-3320

【讨论】:

    【解决方案2】:

    查看https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.html

    pdfParserConfig.setExtractInlineImages(true);
    pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`
    

    将pdf扫描的文档转换成图片后发送到tesseract

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-03-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-01-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多