【发布时间】:2011-08-05 02:46:04
【问题描述】:
我正在将大量扫描文档数字化,并使用 Tesseract 3 作为我的 OCR 引擎。它的输出质量一般,因为它经常在实际文本之前和之后产生垃圾字符,以及文本中的拼写错误。
对于前一个问题,似乎必须有策略来确定哪些文本是真正的文本,哪些不是字典中的单词)。
对于拼写错误,大多数错误源于字母的一些错误分类(例如,将l、1 和I 相互替换),似乎应该有方法猜测哪些单词拼错了(因为英语中没有太多单词中间有“1”),并猜测正确的更正是什么。
该领域的最佳做法是什么?是否有做这种事情的算法的免费/开源实现?谷歌已经发表了很多论文,但并不具体。如果没有可用的实现,那么众多论文中的哪一个会是一个好的起点?
【问题讨论】:
-
@coffee 不过,这些主要是处理拼写错误,而不是消除输出中的非文本。
标签: algorithm ocr error-correction