【发布时间】:2011-07-06 07:49:38
【问题描述】:
我正在寻找一个在 Linux 上运行的开源 OCR 库。我需要它来处理 PNG 和 PDF。大多数情况下,我想从 java 或 ruby 接口这个库。想知道有什么可用的吗?
问候。
【问题讨论】:
-
您已检查该文本在 PDF 中不可用,对吗? (我隐约记得 PNG 可能也具有存储文本的能力,但我可能会误认为)。
我正在寻找一个在 Linux 上运行的开源 OCR 库。我需要它来处理 PNG 和 PDF。大多数情况下,我想从 java 或 ruby 接口这个库。想知道有什么可用的吗?
问候。
【问题讨论】:
Tesseract 是一个非常好的 OCR 引擎:https://github.com/tesseract-ocr/tesseract
该项目由 HP Labs 发起,现在由 Google 继续并赞助(用于 Google Books!)。它是在 Apache 许可下发布的,并且在 Linux 上运行。它使用 Tiff 或 PNGs 文件;对于 PDF,您需要转换为其中一种格式。我想没有绑定,所以您应该将此软件作为子程序调用...
【讨论】:
Cuneiform 是免费的并且做得不错。您可以将它作为子程序调用,但我知道没有语言绑定。它不会直接读取 PDF,但您可以轻松地拆分作为扫描图像序列的 PDF,以将它们提供给 Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。
【讨论】:
试试tesjeract,它使用JNI调用Tesseract OCR API。
对于 PDF,您需要先将它们转换为图像,例如使用 GhostScript。
【讨论】: