【发布时间】:2017-07-09 02:53:12
【问题描述】:
我有大量 19 世纪的英文 OCRed 文档,我想通过使用上下文拼写检查器来清理一些 OCR 错误,例如 Peter Norvig 在http://norvig.com/spell-correct.html 提出的那个。我的主要目标是能够使用概率模型(连同 ocred 文本数据和适当的大字典)来纠正拼写错误的单词。
我很高兴使用 Norvig 在他的网站中提供的代码并对其进行改进,但在我这样做之前,我想问一下是否有针对此的开源解决方案。 Norivg 本人建议查看 aspell,但我不认为 aspell 是上下文拼写检查器,而且我担心它在 OCR 纠错方面可能效果不佳。
【问题讨论】:
-
这方面有进展吗?
-
我见过最好的还是 Peter Norvig 的代码……
标签: ocr spell-checking aspell