【发布时间】:2018-02-22 15:15:29
【问题描述】:
这是原始屏幕截图,我将图像裁剪为 4 个部分,并尽可能清除图像的背景,但 tesseract 仅检测到此处的最后一列而忽略其余部分。
tesseract 的输出显示为有空格,我在处理结果时删除了这些空格
Femme—Fatale.
DaRkLoRdEIa
aChineseN1gg4
Noob_Diablo_
tesseract 的输出显示为有空格,我在处理结果时删除了这些空格
Kicked.
NosNoel
ChikiZD
Death_Eag|e_42
Chai—.
3579 10 1 7 148
2962 3 O 7 101
2214 2 2 7 99
2205 1 3 6 78
8212
7198
6307
5640
4884
15
40
40
6O
80
80
我只是在转储
的输出result = `pytesseract.image_to_string(Image.open("D:/newapproach/B&W"+str(i)+".jpg"),lang="New_Language")`
但我不知道如何从这里开始以获得一致的结果。无论如何,我可以强制 tesseract 识别文本区域并使其扫描。因为在训练器(SunnyPage)中,默认为 tesseract识别扫描它无法识别某些区域,但是一旦我手动选择,所有内容都会被检测并正确翻译为文本
Code
【问题讨论】:
-
你能分享原始未处理的图像。数据是表格吗?
-
@AmarpreetSinghSaini 添加了原始图像以及清理和裁剪的图像及其各自的输出,我现在只是将数据转储到文本文件中。我计划稍后在输出更准确时编写使用数据库可靠
-
@Divaker 检查更新的答案
-
您可以尝试使用页面分割方法。这里有一个列表,其中一个可能比默认更适合您的问题:github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
-
我查看了该页面,您是否有任何关于其实现的 python 文档或任何想法在哪里指定分段属性
标签: python opencv python-tesseract pytesser