【问题标题】:tesseract unable to detect characters in simple two-word imagetesseract 无法检测简单的两字图像中的字符
【发布时间】:2020-01-05 00:46:27
【问题描述】:

我无法让 tesseract 识别下图中的任何字符:

当我从命令行对此图像运行 tesseract 时,我得到 "Empty page!!" - 也就是说,没有结果 - 返回。根据我对 wiki 提高质量部分的阅读,我认为问题可能在于此图像中的单词不是字典单词。考虑到这一点,我尝试了完全禁用 tesseract 字典(使用 load_system_dawgload_freq_dawg 配置标志)以及使用这些附加词(LAO 和 CAUD)扩充现有字典。这些方法都不起作用。我已经尝试过 tesseract 版本 3、4,并在 Mac 计算机上从源代码构建了版本 5。都给出了相同的结果。

奇怪的是,如果我将该图像中的确切单词输入文字处理器并截取屏幕截图,它就会起作用:生成的图像可以被 tesseract 读取。它正确解析每个字符。这是这张图片:

两张图片的唯一区别是第一张的分辨率/质量略低。那么我是否相信 tesseract 无法识别质量稍差的图像中的字符?我能做些什么来提高图像质量吗?我还缺少什么吗?

提前致谢。

【问题讨论】:

  • 尝试使用 PSM 6。
  • PSM 6 成功了!谢谢!

标签: ocr tesseract python-tesseract


【解决方案1】:

这是一个常见的问题。您可能需要对图像进行预处理,包括重新缩放、过滤器等。

这里有一些关于如何做到这一点的参考:

https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

https://docparser.com/blog/improve-ocr-accuracy/

【讨论】:

    【解决方案2】:

    解决方案是使用正确的page segmentation method (PSM)。就我而言,用于单个文本块的 PSM 6 成功了。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-04-26
      • 1970-01-01
      • 2020-07-28
      • 2013-11-25
      • 2012-03-26
      • 1970-01-01
      • 2018-05-03
      相关资源
      最近更新 更多