【发布时间】:2021-03-10 17:24:30
【问题描述】:
您好,Tika Server 已使用 tesseract 设置,但仍无法读取 PDF 中的嵌入图像。尝试使用可用的两个标头,但没有帮助。
这仅适用于 PDF 文件。同时,OCR 也适用于其他文件类型/图像。
在此处使用自定义的 docker 容器。奇怪的是,部署在另一台机器上的同一个容器可以工作。 有没有低级问题的可能?
更新: 比较日志后,OCP 似乎正在将自定义 HTTP 标头小写,例如 X-Tika...、Postman-Token 到 x-tika...、postman-token 等。有人可以帮我解决可能的问题吗?
【问题讨论】:
-
Docker 容器的一个特点是它们包含电池,并且在任何地方都运行相同......你确定你在两台机器上运行相同的容器,具有相同的环境传入的变量?
-
是的。虽然一个在 Kubernetes 上运行,一个在 OCP 上。并且没有额外的环境变量。
标签: openshift tesseract apache-tika rhel7 tika-server