适用于 Android 的 Tesseract OCR 读取 ID答案

【问题标题】：Tesseract OCR read ID for Android适用于 Android 的 Tesseract OCR 读取 ID
【发布时间】：2014-04-01 05:31:34
【问题描述】：

我正在尝试实现 tesseract (tess-two) 来读取一个 ID 的数据或检查。有人能做到吗？我当时在识别文本时遇到问题。结果有很多多余的字符

【问题讨论】：

标签： android ocr tesseract

【解决方案1】：

根据我使用 Tesseract OCR 的经验，我发现如果将图像转换为字节二进制（像素是黑色或白色），我会得到更好的结果。当有高对比度时，OCR 引擎往往会更好地工作。有关如何将 Android 位图转换为二进制图像的信息，请查看此问题 (Android: Convert Grayscale to Binary Image)。

此链接解释了为什么黑白图像往往效果更好，还讨论了提高 OCR 准确性的其他方法 (https://marinersoftware.deskpro.com/kb/articles/294-which-steps-can-be-taken-to-improve-the-accuracy-of-ocr-results-in-paperless)。

虽然对输入图像进行预处理会提高准确性，但对输出文本进行后处理也可能会有所帮助。

【讨论】：

我对文字有很好的认识。但是我必须对已经导入 IOS 或 Androir 的图像进行拉伸。在那之后，我得到了一大桶额外的字符。我曾尝试过 OCRTest，因为我只需要获取 ID 的一部分。但即使使用示例（Android 的 OCRTest），我也会得到额外的字符甚至无法识别的行。你用过教程吗？
查看本教程 (rmtheis.wordpress.com/2011/08/06/…)。另外，尝试使用带有大字母和黑白配色方案的图像，例如这张 (data2.whicdn.com/images/13725579/large.jpg)，并查看输出文本的外观。