【问题标题】:Best open-source spell-checker for OCR? [closed]OCR 的最佳开源拼写检查器? [关闭]
【发布时间】:2017-07-09 02:53:12
【问题描述】:

我有大量 19 世纪的英文 OCRed 文档,我想通过使用上下文拼写检查器来清理一些 OCR 错误,例如 Peter Norvig 在http://norvig.com/spell-correct.html 提出的那个。我的主要目标是能够使用概率模型(连同 ocred 文本数据和适当的大字典)来纠正拼写错误的单词。

我很高兴使用 Norvig 在他的网站中提供的代码并对其进行改进,但在我这样做之前,我想问一下是否有针对此的开源解决方案。 Norivg 本人建议查看 aspell,但我不认为 aspell 是上下文拼写检查器,而且我担心它在 OCR 纠错方面可能效果不佳。

【问题讨论】:

  • 这方面有进展吗?
  • 我见过最好的还是 Peter Norvig 的代码……

标签: ocr spell-checking aspell


【解决方案1】:

所以,您正在寻找一个拼写检查器,只要它不理解某个短语或单词,它就可以替代最可能的选择?这似乎对 19c 文本来说是个坏主意,除非你有大量这样的文本已经过手工拼写检查。过去很常见但现在很少见的词将在您不知情的情况下被替换。我敢说,您可能会发现一个受过现代语言训练的上下文拼写检查器被您的 19c 用语无礼地表达出来。 ☺

如果您有这样的语料库,或者您准备创建一个语料库,那么有一个强大的基于 Python 的 OCR 和分析工具,名为 OCRopus。它使用自然语言处理、神经网络和许多其他流行语——我想我在待办事项清单上看到了“深度学习”。它看起来并不容易使用,尽管我承认我自己从未尝试过。它似乎需要在命令行和 Python 编程方面的技能。如果您仍然不畏惧,它可能正是您正在寻找的。

另一方面,如果您正在寻找更简单的东西,请考虑使用带有标准拼写检查器的程序。例如,gImageReader 可以读取您的 PDF 文件,对它们进行 OCR,并让您更正和添加它不知道的单词。我建议在搜索更复杂的东西之前至少尝试一个简单的拼写检查器。

【讨论】:

    【解决方案2】:

    不是开源的,但您可能想查看AfterScan。它提供对 OCR 特定错误的批量和可视化编辑。

    【讨论】:

    • 这个问题不只是要求开源,它指定了一个“上下文拼写检查器”。您确定 AfterScan 会这样做吗?该网站似乎没有多说。
    猜你喜欢
    • 2010-10-02
    • 1970-01-01
    • 1970-01-01
    • 2010-11-07
    • 1970-01-01
    • 2013-08-19
    • 2010-10-26
    • 1970-01-01
    • 2012-02-02
    相关资源
    最近更新 更多