【问题标题】:Is there any way to improve tesseract OCR with small fonts?有没有办法用小字体改进 tesseract OCR?
【发布时间】:2011-06-22 00:25:27
【问题描述】:

我正在尝试通过 python-tesseract 使用 tesseract-OCR 来读取如下所示的低分辨率字体:

不幸的是,图像返回

ZIJZHZI

我认为分辨率太低会导致问题。我尝试放大图像,并将其裁剪为单个字符,但这些都没有提供太大的改进。还有什么我应该考虑做的事情,最好是可以使用 Python Imaging Library 完成的事情?或者我应该放弃/训练 tesseract。

不管怎样,PIL 有以下内置过滤器:

模糊、轮廓、细节、EDGE_ENHANCE、
EDGE_ENHANCE_MORE、浮雕、FIND_EDGES、
SMOOTH、SMOOTH_MORE 和 SHARPEN

【问题讨论】:

  • 尝试使用抗锯齿调整 x6 大小。我在截图上试过了,效果不错。

标签: ocr tesseract python-imaging-library


【解决方案1】:

我尝试使用以下方法放大图像:

  convert -resize 400% in.bmp out.bmp

然后阅读:

  tesseract out.bmp res

结果正确:

  100

【讨论】:

  • convert 是 ImageMagick 的一部分,它只是调整图像大小
  • 它在正常分辨率下对我有帮助,结果是“mm readmxs”,在调整输出文件大小后显示“你能读懂这个吗?”
  • @RobertMihaiIonas,你能提供图片吗?
  • convert 完成这项工作,但 tesseract out.bmp stdout -psm 12 psm 12 是必需的
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-06-12
相关资源
最近更新 更多