【发布时间】:2023-04-01 15:39:01
【问题描述】:
我正在处理 OCR 输出,我正在其中搜索特殊单词。
由于输出不干净,我根据低于特定阈值的字距查找与我的输入匹配的元素。
但是,我觉得 Levenshtein 距离或 Hamming 距离并不是最好的方法,因为 OCR 似乎总是犯同样的错误:I 代表 1,0 代表 O,Q 代表 O……以及这些“经典” 例如,错误似乎不如“A for K”重要。因此,这些距离不关心角色外观的差异量(低/高)。
是否有任何专门为 OCR 制作的字距算法,我可以使用它更适合我的情况?还是我应该根据字符的视觉差异经验性地实现我的自定义词距?
【问题讨论】:
-
如果你读过 tesseract 源代码,你会看到它特别处理了很多这样的情况
-
你在 64 位 JVM 上使用 tesseract ocr 吗?
-
@manu 不,我使用 ABBYY FineReader。
-
那么您正在使用试用版
-
@manu 不,这不是试用版。为什么问?付费版有什么我应该知道的隐藏内容吗?
标签: algorithm ocr levenshtein-distance hamming-distance