有没有办法用小字体改进 tesseract OCR？

【问题标题】：Is there any way to improve tesseract OCR with small fonts?有没有办法用小字体改进 tesseract OCR？
【发布时间】：2011-06-22 00:25:27
【问题描述】：

我正在尝试通过 python-tesseract 使用 tesseract-OCR 来读取如下所示的低分辨率字体：

不幸的是，图像返回

ZIJZHZI

我认为分辨率太低会导致问题。我尝试放大图像，并将其裁剪为单个字符，但这些都没有提供太大的改进。还有什么我应该考虑做的事情，最好是可以使用 Python Imaging Library 完成的事情？或者我应该放弃/训练 tesseract。

不管怎样，PIL 有以下内置过滤器：

模糊、轮廓、细节、EDGE_ENHANCE、
EDGE_ENHANCE_MORE、浮雕、FIND_EDGES、
SMOOTH、SMOOTH_MORE 和 SHARPEN

【问题讨论】：

【解决方案1】：

我尝试使用以下方法放大图像：

  convert -resize 400% in.bmp out.bmp

然后阅读：

  tesseract out.bmp res

结果正确：

【讨论】：