【问题标题】:tesseract-orc not reading text from even simple imagestesseract-ocr 甚至无法从简单的图像中读取文本
【发布时间】:2015-04-20 09:56:49
【问题描述】:

为了其他人在 Google 中找到这个,我会详细解释我的问题,尽管它应该很明显。我正在使用 tesseract-ocr 希望从图像中删除文本。我正在努力解决的问题是 tesseract-orc 即使在最简单的图像中也找不到文本。在下面查看我的系统和版本信息:

[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3

我正在尝试使用 php ocr 类的示例图像,但 or 类对于我需要做的事情来说不够强大,显然 tesseract 是。

以下是我运行 tesseract 时发生的情况:

[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#

这些是我正在使用的图像:

http://arbiter.rogues-alliance.com/includes/phpocr/W.png

http://arbiter.rogues-alliance.com/includes/phpocr/W1.png

已编辑:包含更多图片。

【问题讨论】:

标签: php ocr tesseract


【解决方案1】:

尝试添加pagesegmode 选项,例如-psm 10(即10 = 将图像视为单个字符),这似乎也能提高单个字符的识别效果。使用tesseract --help 列出其他选项。

不幸的是,当我使用 -psm 10 运行您的示例文件时,W.pngW1.png 分别被标识为 wN,尽管更大的图像例如this one 正确识别为W。我怀疑是您的样本的大小/字体导致了这种情况。此外,这纯粹是推测,tesseract 可能会在上下文中更好地识别此字符,即与使用相同字体和大小的其他字符一起。

【讨论】:

  • 谢谢,我需要从这张图片中获取文字,你能帮忙吗? arbiter.rogues-alliance.com/includes/phpocr/images/…
  • 这是一个专门用来防止 OCR 分析的图像(我们是在编写垃圾邮件机器人吗?:D)。我怀疑你会很难过。我绝不是 OCR 专家,但也许使用 tesseract 库而不是命令行工具会更好。
  • 我就知道你会这么想!不,我的工作是证明使用 tesseract 破解代码是可能的。所以我希望得到一些帮助。
  • 哈哈,开个玩笑 :) 我不认为这是可能的,但我不敢说 tesseract 是否是正确的 OCR 库。我认为您通常使用Tesseract API 来对设置和过程有更精细的粒度,也许可以结合其他图像处理/分析工具来识别文本并预先“过滤”掉水平线等。
  • 好的,所以我听从了您的建议并支付了 ABBYY 的服务来完成这项工作。他们回来了:imgur.com/J2vnzDd 产生了“96 TMENTYONE , „ 3” 现在我只需要弄清楚如何使用 tesseract 来做到这一点,因为我确信它是可能的。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2019-06-13
  • 2020-04-01
  • 2020-10-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多