tesseract-ocr 甚至无法从简单的图像中读取文本答案

【问题标题】：tesseract-orc not reading text from even simple imagestesseract-ocr 甚至无法从简单的图像中读取文本
【发布时间】：2015-04-20 09:56:49
【问题描述】：

为了其他人在 Google 中找到这个，我会详细解释我的问题，尽管它应该很明显。我正在使用 tesseract-ocr 希望从图像中删除文本。我正在努力解决的问题是 tesseract-orc 即使在最简单的图像中也找不到文本。在下面查看我的系统和版本信息：

[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3

我正在尝试使用 php ocr 类的示例图像，但 or 类对于我需要做的事情来说不够强大，显然 tesseract 是。

以下是我运行 tesseract 时发生的情况：

[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#

这些是我正在使用的图像：

http://arbiter.rogues-alliance.com/includes/phpocr/W.png

http://arbiter.rogues-alliance.com/includes/phpocr/W1.png

已编辑：包含更多图片。

【问题讨论】：

谢谢，我需要从这张图片中获取文字，你能帮忙吗？ arbiter.rogues-alliance.com/includes/phpocr/images/…

标签： php ocr tesseract

【解决方案1】：

尝试添加pagesegmode 选项，例如-psm 10（即10 = 将图像视为单个字符），这似乎也能提高单个字符的识别效果。使用tesseract --help 列出其他选项。

不幸的是，当我使用 -psm 10 运行您的示例文件时，W.png 和 W1.png 分别被标识为 w 和 N，尽管更大的图像例如this one 正确识别为W。我怀疑是您的样本的大小/字体导致了这种情况。此外，这纯粹是推测，tesseract 可能会在上下文中更好地识别此字符，即与使用相同字体和大小的其他字符一起。

【讨论】：

谢谢，我需要从这张图片中获取文字，你能帮忙吗？ arbiter.rogues-alliance.com/includes/phpocr/images/…
这是一个专门用来防止 OCR 分析的图像（我们是在编写垃圾邮件机器人吗？:D）。我怀疑你会很难过。我绝不是 OCR 专家，但也许使用 tesseract 库而不是命令行工具会更好。
我就知道你会这么想！不，我的工作是证明使用 tesseract 破解代码是可能的。所以我希望得到一些帮助。
哈哈，开个玩笑 :) 我不认为这是可能的，但我不敢说 tesseract 是否是正确的 OCR 库。我认为您通常使用Tesseract API 来对设置和过程有更精细的粒度，也许可以结合其他图像处理/分析工具来识别文本并预先“过滤”掉水平线等。
好的，所以我听从了您的建议并支付了 ABBYY 的服务来完成这项工作。他们回来了：imgur.com/J2vnzDd 产生了“96 TMENTYONE , „ 3” 现在我只需要弄清楚如何使用 tesseract 来做到这一点，因为我确信它是可能的。