【发布时间】:2013-01-29 07:00:29
【问题描述】:
我正在使用 Tesseract,我想开发一个能够识别字符序列的应用。我取得了不错的成绩,但并不出色。
我想阅读的字符序列总是有一个特定的模式,比如说:
number number number char char -(例如:123AB)
有没有办法“告诉” ocr 引擎结构始终是固定的,以提高识别结果?
提前谢谢你。
【问题讨论】:
-
谢谢,我看了一下,但没有帮助。关键是在我的序列中,我可以拥有所有可能的字符 [A-Z] 和数字 [0-9],所以我不能使用任何限制。我掌握的唯一信息是前 3 个字符是数字,后 2 个字符是字符。
-
@stei2348:您可以对结果字符串进行一些后处理,例如将 I 转换为 1,反之亦然。或者对源图像进行预处理。
标签: structure ocr design-patterns tesseract