【发布时间】:2011-06-21 23:44:55
【问题描述】:
我正在使用此 OCR 的编译 .NET 版本,可以在 @http://www.pixel-technology.com/freeware/tessnet2/ 找到它
我有它的工作,但它的目的是翻译车牌,遗憾的是引擎确实不能准确翻译一些字母,例如这是我扫描以确定字符问题的图像
结果:
12345B7B9U ABCDEFGHIJKLMNUPIJRSTUVHXYZ
因此以下字符被错误翻译:
1、O、Q、W
这似乎还不错,但是在我的车牌上,结果并不是那么好:
= H4 ODM
= LDH IFW
假测试
= NR4 y2k
如您所知,我已经尝试过降噪、增加对比度和去除不是绝对黑色的像素,但没有真正的改进。
显然你可以“学习”引擎的新字体,但我认为我需要为 .NET 重新编译库,而且这似乎是在我没有的 Linux 操作系统上执行的。
http://www.scribd.com/doc/16747664/Tesseract-Trainingfor-Khmer-LanguageFor-Posting
所以我不知道接下来要尝试什么,如果有人想尝试它,我已经编写了一个纯粹用于测试目的的快速控制台应用程序。如果有人有任何想法/图形处理/图书馆想法,我将不胜感激。
【问题讨论】:
-
这是另一个问题:O 和 0 具有相同的形状,因此 OCR 引擎无法正确识别它们。
-
是的,我注意到了,不敢相信它们的形状完全相同。反正我已经想到了一种在OCR之外处理这个的方法,所以它是np。
-
@Martin Thurau:错了!在文本字体中,0 和 O 大部分时间都是不同的——很高兴!所以如果你对这个字体进行特殊的训练,你应该能够区分它们,这是我的情况。当然,如果您事先不知道字体,这可能会困难得多。
-
@Emmanuel 我想马丁说的是这个问题的具体字体
-
@korbes:感谢您提到这一点,当然在这种情况下确实很难区分... :-)
标签: c# image-processing ocr tesseract