【发布时间】:2014-04-01 05:31:34
【问题描述】:
我正在尝试实现 tesseract (tess-two) 来读取一个 ID 的数据或检查。有人能做到吗?我当时在识别文本时遇到问题。结果有很多多余的字符
【问题讨论】:
我正在尝试实现 tesseract (tess-two) 来读取一个 ID 的数据或检查。有人能做到吗?我当时在识别文本时遇到问题。结果有很多多余的字符
【问题讨论】:
根据我使用 Tesseract OCR 的经验,我发现如果将图像转换为字节二进制(像素是黑色或白色),我会得到更好的结果。当有高对比度时,OCR 引擎往往会更好地工作。有关如何将 Android 位图转换为二进制图像的信息,请查看此问题 (Android: Convert Grayscale to Binary Image)。
此链接解释了为什么黑白图像往往效果更好,还讨论了提高 OCR 准确性的其他方法 (https://marinersoftware.deskpro.com/kb/articles/294-which-steps-can-be-taken-to-improve-the-accuracy-of-ocr-results-in-paperless)。
虽然对输入图像进行预处理会提高准确性,但对输出文本进行后处理也可能会有所帮助。
【讨论】: