【发布时间】:2016-09-29 06:23:44
【问题描述】:
我的 pdf 包含扫描的图像,我想从中提取文本。
我尝试了什么:我尝试了 AutoDetectParsers 但没有输出。
我遵循Apache Tika extract scanned PDF files 中提供的解决方案以及https://issues.apache.org/jira/browse/TIKA-1729 中的 Apache Tika Jira,但得到空字符串而没有任何错误。
我的配置:Win 7 64位操作系统,JDK 1.8.0_45。
欢迎任何形式的帮助。
【问题讨论】:
-
您是否安装了 Tesseract 并位于配置中指定的位置?您是否尝试关注Tika Troubleshooting Guide?
-
@Gagravarr 我正在使用 maven 安装所有包含 Tesseract 的 jar。我查看了无内容提取问题的故障排除指南。我使用了最新版本(1.13)的 Apache-tika-app.jar 并尝试使用 GUI 检查提取但没有输出。
-
Tesseract 不是 Java 库,因此 Maven 不会帮助您。您需要为您的操作系统下载并安装本机程序
-
@Gagravarr 我不想为此使用任何软件。我想使用可以在我的 java 应用程序中使用的 TesseractOCR java api。无论如何只是为了好玩,我安装了 tesseract 桌面应用程序并尝试了我的 pdf,它提取了一些不正确的单词。
-
Tesseract 是一个本机程序,您必须单独下载和安装。所有 Tika 船都是围绕 Tesseract 的适当包装器,以便在安装后使用它
标签: java parsing pdf ocr apache-tika