开源 OCR [关闭]答案

【问题标题】：Open source OCR [closed]开源 OCR [关闭]
【发布时间】：2011-07-06 07:49:38
【问题描述】：

我正在寻找一个在 Linux 上运行的开源 OCR 库。我需要它来处理 PNG 和 PDF。大多数情况下，我想从 java 或 ruby 接口这个库。想知道有什么可用的吗？

问候。

【问题讨论】：

【解决方案1】：

Tesseract 是一个非常好的 OCR 引擎：https://github.com/tesseract-ocr/tesseract

该项目由 HP Labs 发起，现在由 Google 继续并赞助（用于 Google Books！）。它是在 Apache 许可下发布的，并且在 Linux 上运行。它使用 Tiff 或 PNGs 文件；对于 PDF，您需要转换为其中一种格式。我想没有绑定，所以您应该将此软件作为子程序调用...

【讨论】：

【解决方案2】：

Cuneiform 是免费的并且做得不错。您可以将它作为子程序调用，但我知道没有语言绑定。它不会直接读取 PDF，但您可以轻松地拆分作为扫描图像序列的 PDF，以将它们提供给 Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。

【讨论】：

【解决方案3】：

试试tesjeract，它使用JNI调用Tesseract OCR API。

对于 PDF，您需要先将它们转换为图像，例如使用 GhostScript。

【讨论】：