如何获得小字体的准确结果答案

【问题标题】：How to get the accurate result for small font size如何获得小字体的准确结果
【发布时间】：2014-09-29 14:56:52
【问题描述】：

我正在尝试使用 Tesseract 3.02 从应用程序中读取文本以进行验证（自动化测试）。如果字体很小（8 到 10），它总是给我不正确的结果。在将图像传递给 tesseract 之前，我遵循了下面提到的图像处理。 1. 将图像转换为灰度。（图片格式JPG） 2.重新缩放图像 3. 将图像转换为 300 DPI

对图像进行预处理后，将其传递给 tesseract。我拥有的大多数应用程序图像的字体都很小。此外，我确保训练数据中的字体类型可用，但准确率仍然很低。

如果我遗漏了什么，谁能指导我。

【问题讨论】：

我在这里发布了一个可能相关的答案：stackoverflow.com/q/21827854/1679849。此外，请勿使用 JPEG 等有损图像格式。请改用 PNG。

标签： ocr tesseract tess4j

【解决方案1】：

我在阅读 8 pt 时遇到了同样的问题。图像中的文本。即使在尝试了 GrayScale，重新缩放到 400% 之后，它也只起到了一点作用。 Tesseract OCR 只是不太擅长小字体文本。我的同事建议我在 https://cloud.google.com/vision/ 尝试 Google Cloud Vision。 Tesseract-OCR 的准确率约为 50%，但 Google Vision 的准确率为 100%。在https://cloud.google.com/sdk/docs/#windows 有一个 Windows SDK 并且还有示例 .NET Cloud Vision 项目。我已经尝试了示例项目，它可以完美地处理我图像中的文本，考虑到 Tesseract-OCR 的准确率只有 50% 左右，这非常令人印象深刻。唯一的缺点是它是一项基于云的付费服务，但您至少可以免费试用。

【讨论】：