【问题标题】:Improving Tesseract OCR accuracy on screenshot提高屏幕截图上的 Tesseract OCR 准确性
【发布时间】:2019-11-02 03:49:32
【问题描述】:

屏幕截图上的 tesseract OCR 给出了相当不稳定的结果。即使图像是全黑的,上面有白色的文字,似乎也只有一些文字可以被正确识别。即使在我将图像大小调整为300dpi 之后,准确性仍然很低,并且大部分文本都是乱码。

我在 StackOverflow 上阅读了类似的问题:Best way to recognize characters in screenshot?

如前所述,问题的作者通过使用他的字体训练 tesseract 引擎能够获得近 100% 的准确率。

我图片中的字体是 Arial。我怎样才能提高准确性???

这是我拥有的图像类型的示例: Image Sample

【问题讨论】:

    标签: image-processing ocr tesseract training-data


    【解决方案1】:

    您可以通过更改 --psm 和 --oem 值来调整 OCR 的配置

    尝试: --psm 5 --oem 2

    您还可以查看以下链接了解更多详情 here

    【讨论】:

      【解决方案2】:

      这个问题很老,但在谷歌搜索中首先出现,所以我想,我会回答。我有一个非常相似的问题,以为我会发疯,但偶然发现了这个页面:https://tesseract-ocr.github.io/tessdoc/ImproveQuality

      上面写着: 反转图像 虽然 tesseract 版本 3.05(及更早版本)处理倒置图像(深色背景和浅色文本)没有问题,但对于 4.x 版本,使用浅色背景上的深色文本。

      我用 ImageMagick 否定了图像,然后我们开始:100% 匹配!

      【讨论】:

        猜你喜欢
        • 2021-06-30
        • 2017-04-03
        • 2012-03-17
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-02-25
        • 2020-01-21
        相关资源
        最近更新 更多