为什么 Tesseract 不能识别一个简单的单词？答案

【问题标题】：Why doesn't Tesseract recognize a simple word?为什么 Tesseract 不能识别一个简单的单词？
【发布时间】：2016-09-05 05:14:26
【问题描述】：

我正在尝试使用 Tesseract，但在第二次尝试时已经失败。

这是图片文件：

结果总是一个空字符串。代码如下：

from pytesseract import image_to_string

image_file = Image.open('image.png')
print(image_to_string(image_file))

我也直接从终端尝试过

tesseract image.png 输出

再次失败。

这张图片有问题还是我做错了什么？

我正在使用 Ubuntu 14.04 和安装了 apt-get 的 Tesseract 以及使用 pip 安装的 pytesseract。

Python 版本：3.4

【问题讨论】：

我也没有得到原始图像的结果。当原始图像在馈送 tesseract 之前被裁剪以不包含太多围绕文本的填充时，tesseract 的结果几乎总是 100%。我无法确切说明它为什么会这样工作，但假设背景颜色和纹理可能会混淆预处理阶段。我建议在喂 tesseract 之前有一个分割算法。在解释为什么它不适用于您的图像后，将添加其他信息。

标签： tesseract

【解决方案1】：

应用灰度或单色滤镜后，它会生成“DDownload！”。

【讨论】：

【解决方案2】：

在this 文档中，我发现了指向这些advices 的有趣链接，这应该会有所帮助。查看建议页面中的“4 准备图像”部分。

更高级的 OCR 程序会自行完成此操作。毫无疑问正方体会有所改善。

【讨论】：