【问题标题】:Tesseract OCR How do I improve result?Tesseract OCR 如何改进结果?
【发布时间】:2017-03-24 01:59:15
【问题描述】:

我很难使用 Tesseract,有没有办法提高准确性?如果需要,我如何自己训练它?

我唯一要做的就是阅读以下字符,XYZ:-0123456789 而已!图片总是这样。

谢谢!

【问题讨论】:

  • Tesseract 已经可以正常工作了。使用更高分辨率的图像。 github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract 是训练 tesseract 的良好起点。
  • 在将图像发送到 Tesseract 之前,您可以使用 PIL 或 OpenCV 进行预处理。尝试提高分辨率,然后稀释图像以断开“-”与任何数字的连接。

标签: ocr tesseract


【解决方案1】:

Tesseract 4.00alpha 与您的图像的输出是

$ tesseract ICKcj.png - -l eng
*: 4606 Y; 4809 Z; 698

Warning. Invalid resolution 0 dpi. Using 70 instead.

将图片重新采样为 50% 并将 dpi 设置为 300:

这张图片的输出稍微好一点,警告消失了:

$ tesseract ICKcj-50.png - -l eng
X: 4606 Y: 4809 Z: 698

唯一缺少的是减号,它们打印得很不规则(图片中更好的分辨率可能会有所帮助)。也可以限制 tesseract 中的输出模式。或者,您可以尝试根据 X、Y、Z 和数字之间的空格来猜测减号。

【讨论】:

  • 如何更改 DPI?
  • 我用 IrfanView 为一张图片做了这个。我想其他图形软件也可以做到这一点。甚至还有一个在线服务可以做到这一点:convert.town/image-dpi。要批量进行此类更改,我建议查看ImageMagick的convert的选项。
猜你喜欢
  • 2015-03-07
  • 2015-02-24
  • 2016-06-02
  • 2017-09-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-11-14
  • 1970-01-01
相关资源
最近更新 更多