【发布时间】:2011-06-01 00:14:23
【问题描述】:
我正在开发能够识别 ISBN 号码的 iPhone 应用程序(ISBN:978-83-7380-900-0) 我为此使用了 tesseract,但效果不佳。我可以看到其他应用程序,使用相同的引擎工作得更好。
为了限制我使用这个配置行的字符: tess->SetVariable("tessedit_char_whitelist", "SN:0123456789X-"); 所以所有的“I”都被转换为“1”,而“B”被转换为8。使用它不会让那些字母出错,这对我来说并不重要。 之后,我使用正则表达式查找已识别文本的正确部分。
我还裁剪了图像,因此 tesseract 仅识别图像的一部分,其中 isbn 可见(我在相机叠加层上放置了颜色矩形,因此用户必须将代码放置在正确的位置) 我还将图像调整为 1000px 宽度(也尝试了其他尺寸)
光线好的时候效果很好,但是光线不好的时候就很难正确识别了。
isbn数的最后一位是控制和。
我该怎么做才能让它更好地工作? 有没有办法说 tesserect 仅在给定的正则表达式中识别文本? 也许我应该先对图像做点什么?
无法正确识别的示例图像:
http://img412.imageshack.us/i/img0367si.jpg/
http://img264.imageshack.us/i/img0361d.jpg/
【问题讨论】: