【发布时间】:2017-12-01 12:18:37
【问题描述】:
我刚刚从 Github 的存储库中安装了 Tika,并尝试对包含扫描文档页面的 PDF 进行 OCR。
java -cp tika-app/target/tika-app-1.17-SNAPSHOT.jar org.apache.tika.cli.TikaCLI /tmp/testing/sample_scanned.pdf
但是,只有元数据被提取(尽管我事先得到了 Tesseract 已安装和使用的确认:
警告:Tesseract OCR 已安装并将自动应用于图像文件,除非 您已从默认解析器中排除了 TesseractOCRParser。 Tesseract 可能会显着减慢内容提取速度 (TIKA-2359)。 从 Tika 1.15(和之前的版本)开始,自动调用 Tesseract。 在未来的 Tika 版本中,用户可能需要通过 TikaConfig 开启 TesseractOCRParser。
注意:常规 PDF(包含)纯文本可以成功提取。问题似乎出在 OCR 过程本身。
这已经在 Centos 和 Ubuntu 上进行了测试——同样的问题。
我是否需要更改配置文件,指定更多解析器?这是什么原因造成的?
谢谢。
【问题讨论】:
-
仍在寻找解决方案。我是否需要在配置中的某处指定 OCR 部分才能使用它。如果是这样,为什么会显示一条警告消息,指出“Tesseract OCR 已安装并将自动应用?” (如上所述)。
-
好像和PDF Parser有关。我刚刚遇到了同样的问题 - 解析带有嵌入图像的 .docx 文件会从图像中提取文本,但在 PDF 文件中使用相同的图像不起作用。
-
嗨@BenRomberg 你能解决这个问题吗?
-
在较新的 TikaServer 上,这是由标头启用的。但它似乎不起作用
标签: tesseract apache-tika