OCR 的最佳开源拼写检查器？ [关闭]答案

【问题标题】：Best open-source spell-checker for OCR? [closed]OCR 的最佳开源拼写检查器？ [关闭]
【发布时间】：2017-07-09 02:53:12
【问题描述】：

我有大量 19 世纪的英文 OCRed 文档，我想通过使用上下文拼写检查器来清理一些 OCR 错误，例如 Peter Norvig 在http://norvig.com/spell-correct.html 提出的那个。我的主要目标是能够使用概率模型（连同 ocred 文本数据和适当的大字典）来纠正拼写错误的单词。

我很高兴使用 Norvig 在他的网站中提供的代码并对其进行改进，但在我这样做之前，我想问一下是否有针对此的开源解决方案。 Norivg 本人建议查看 aspell，但我不认为 aspell 是上下文拼写检查器，而且我担心它在 OCR 纠错方面可能效果不佳。

【问题讨论】：

这方面有进展吗？
我见过最好的还是 Peter Norvig 的代码……

标签： ocr spell-checking aspell

【解决方案1】：

所以，您正在寻找一个拼写检查器，只要它不理解某个短语或单词，它就可以替代最可能的选择？这似乎对 19c 文本来说是个坏主意，除非你有大量这样的文本已经过手工拼写检查。过去很常见但现在很少见的词将在您不知情的情况下被替换。我敢说，您可能会发现一个受过现代语言训练的上下文拼写检查器被您的 19c 用语无礼地表达出来。 ☺

如果您有这样的语料库，或者您准备创建一个语料库，那么有一个强大的基于 Python 的 OCR 和分析工具，名为 OCRopus。它使用自然语言处理、神经网络和许多其他流行语——我想我在待办事项清单上看到了“深度学习”。它看起来并不容易使用，尽管我承认我自己从未尝试过。它似乎需要在命令行和 Python 编程方面的技能。如果您仍然不畏惧，它可能正是您正在寻找的。

另一方面，如果您正在寻找更简单的东西，请考虑使用带有标准拼写检查器的程序。例如，gImageReader 可以读取您的 PDF 文件，对它们进行 OCR，并让您更正和添加它不知道的单词。我建议在搜索更复杂的东西之前至少尝试一个简单的拼写检查器。

【讨论】：

【解决方案2】：

不是开源的，但您可能想查看AfterScan。它提供对 OCR 特定错误的批量和可视化编辑。

【讨论】：

这个问题不只是要求开源，它指定了一个“上下文拼写检查器”。您确定 AfterScan 会这样做吗？该网站似乎没有多说。