Tika Server 不读取 PDF 中的嵌入图像答案

【问题标题】：Tika Server not reading embedded images in PDFsTika Server 不读取 PDF 中的嵌入图像
【发布时间】：2021-03-10 17:24:30
【问题描述】：

您好，Tika Server 已使用 tesseract 设置，但仍无法读取 PDF 中的嵌入图像。尝试使用可用的两个标头，但没有帮助。

这仅适用于 PDF 文件。同时，OCR 也适用于其他文件类型/图像。

在此处使用自定义的 docker 容器。奇怪的是，部署在另一台机器上的同一个容器可以工作。有没有低级问题的可能？

更新： 比较日志后，OCP 似乎正在将自定义 HTTP 标头小写，例如 X-Tika...、Postman-Token 到 x-tika...、postman-token 等。有人可以帮我解决可能的问题吗？

【问题讨论】：

【解决方案1】：

似乎 OCP 将自定义标头小写是问题的原因。 TikaServer 1.25 不支持不区分大小写的 X-Tika 标头。

【讨论】：

【解决方案2】：

pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`

将pdf扫描的文档转换成图片后发送到tesseract

【讨论】：