【问题标题】:Why doesn't Tesseract recognize a simple word?为什么 Tesseract 不能识别一个简单的单词?
【发布时间】:2016-09-05 05:14:26
【问题描述】:

我正在尝试使用 Tesseract,但在第二次尝试时已经失败。

这是图片文件:

结果总是一个空字符串。代码如下:

from pytesseract import image_to_string

image_file = Image.open('image.png')
print(image_to_string(image_file))

我也直接从终端尝试过

tesseract image.png 输出

再次失败。

这张图片有问题还是我做错了什么?

我正在使用 Ubuntu 14.04 和安装了 apt-get 的 Tesseract 以及使用 pip 安装的 pytesseract。

Python 版本:3.4

【问题讨论】:

  • 我也没有得到原始图像的结果。当原始图像在馈送 tesseract 之前被裁剪以不包含太多围绕文本的填充时,tesseract 的结果几乎总是 100%。我无法确切说明它为什么会这样工作,但假设背景颜色和纹理可能会混淆预处理阶段。我建议在喂 tesseract 之前有一个分割算法。在解释为什么它不适用于您的图像后,将添加其他信息。

标签: tesseract


【解决方案1】:

应用灰度或单色滤镜后,它会生成“DDownload!”。

【讨论】:

    【解决方案2】:

    this 文档中,我发现了指向这些advices 的有趣链接,这应该会有所帮助。查看建议页面中的“4 准备图像”部分。

    更高级的 OCR 程序会自行完成此操作。毫无疑问正方体 会有所改善。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-01-03
      • 2023-03-23
      • 2022-10-18
      • 2012-03-26
      相关资源
      最近更新 更多