Pytesseract 甚至无法识别非常简单的文本行答案

【问题标题】：Pytesseract can not recognize even very simple textlinePytesseract 甚至无法识别非常简单的文本行
【发布时间】：2021-11-01 13:46:22
【问题描述】：

Binary image B2 Binary image Y2

我认为这些图像非常简单明了。 pytesseract 仍然不起作用。我真的很想知道为什么。

这是我的代码

from pytesseract import pytesseract as tesseract
import cv2 as cv

binary = cv.imread(filepath)

lang = 'eng'
config = 'tessedit_char_whitelist=RGB123'
print(tesseract.image_to_string(binary, lang=lang, config=config))

输出只是空白字符串。

【问题讨论】：

如果您旋转图像然后尝试在旋转后的图像上运行 tesseract，问题是否仍然存在？

标签： python ocr tesseract python-tesseract

【解决方案1】：

就 Dennlinger 而言，我肯定会在通过 PyTess 发送之前旋转它。 PyTess 应该自动旋转它。应该。

另外，我在您的配置中看到您已将“RGB123”列入白名单，如果我错了，请纠正我，这可能意味着 PyTess 主要在寻找那些特定的数字和字符。

我会尝试通过省略该配置来更改您的配置，以便它可以在那里拾取“Y”。

【讨论】：

呃，应该是“RYB123”，这是一个愚蠢的错误，“RYB123”也不起作用
用“np.rot90”旋转它也不起作用