【问题标题】:How to get the accurate result for small font size如何获得小字体的准确结果
【发布时间】:2014-09-29 14:56:52
【问题描述】:

我正在尝试使用 Tesseract 3.02 从应用程序中读取文本以进行验证(自动化测试)。如果字体很小(8 到 10),它总是给我不正确的结果。在将图像传递给 tesseract 之前,我遵循了下面提到的图像处理。 1. 将图像转换为灰度。 (图片格式JPG) 2.重新缩放图像 3. 将图像转换为 300 DPI

对图像进行预处理后,将其传递给 tesseract。我拥有的大多数应用程序图像的字体都很小。此外,我确保训练数据中的字体类型可用,但准确率仍然很低。

如果我遗漏了什么,谁能指导我。

【问题讨论】:

标签: ocr tesseract tess4j


【解决方案1】:

我在阅读 8 pt 时遇到了同样的问题。图像中的文本。即使在尝试了 GrayScale,重新缩放到 400% 之后,它也只起到了一点作用。 Tesseract OCR 只是不太擅长小字体文本。我的同事建议我在 https://cloud.google.com/vision/ 尝试 Google Cloud Vision。 Tesseract-OCR 的准确率约为 50%,但 Google Vision 的准确率为 100%。在https://cloud.google.com/sdk/docs/#windows 有一个 Windows SDK 并且还有示例 .NET Cloud Vision 项目。我已经尝试了示例项目,它可以完美地处理我图像中的文本,考虑到 Tesseract-OCR 的准确率只有 50% 左右,这非常令人印象深刻。唯一的缺点是它是一项基于云的付费服务,但您至少可以免费试用。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-03-26
    • 1970-01-01
    • 1970-01-01
    • 2012-03-26
    • 1970-01-01
    • 2015-11-21
    • 2014-05-12
    • 2023-03-04
    相关资源
    最近更新 更多