Tesseract OCR 如何改进结果？答案

【问题标题】：Tesseract OCR How do I improve result?Tesseract OCR 如何改进结果？
【发布时间】：2017-03-24 01:59:15
【问题描述】：

我很难使用 Tesseract，有没有办法提高准确性？如果需要，我如何自己训练它？

我唯一要做的就是阅读以下字符，XYZ：-0123456789 而已！图片总是这样。

谢谢！

【问题讨论】：

Tesseract 已经可以正常工作了。使用更高分辨率的图像。 github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract 是训练 tesseract 的良好起点。
在将图像发送到 Tesseract 之前，您可以使用 PIL 或 OpenCV 进行预处理。尝试提高分辨率，然后稀释图像以断开“-”与任何数字的连接。

【解决方案1】：

Tesseract 4.00alpha 与您的图像的输出是

$ tesseract ICKcj.png - -l eng
*: 4606 Y; 4809 Z; 698

Warning. Invalid resolution 0 dpi. Using 70 instead.

将图片重新采样为 50% 并将 dpi 设置为 300：

这张图片的输出稍微好一点，警告消失了：

$ tesseract ICKcj-50.png - -l eng
X: 4606 Y: 4809 Z: 698

唯一缺少的是减号，它们打印得很不规则（图片中更好的分辨率可能会有所帮助）。也可以限制 tesseract 中的输出模式。或者，您可以尝试根据 X、Y、Z 和数字之间的空格来猜测减号。

【讨论】：

如何更改 DPI？
我用 IrfanView 为一张图片做了这个。我想其他图形软件也可以做到这一点。甚至还有一个在线服务可以做到这一点：convert.town/image-dpi。要批量进行此类更改，我建议查看ImageMagick的convert的选项。