【发布时间】:2017-07-04 00:02:57
【问题描述】:
我有一些糟糕的 OCR 软件生成的文本。
输出包含单词和空格分隔的字符的混合,它们应该被分组为单词。例如,
Expr e s s i o n Syntax
S u m m a r y o f T e r minology
应该是
Expression Syntax
Summary of Terminology
哪些算法可以将字符组合成单词?
如果我使用 Python、C#、Java、C 或 C++ 编程,哪些库提供算法的实现?
谢谢。
【问题讨论】:
-
使用一些 nltk 语料库并检查组合可能会有所帮助。不确定你最终会得到确切的结果。如果单词是大单词的一部分,这种贪婪的方法可能会失败。然而,没有办法确定性地选择大词或部分词。我猜这可能是一个起点。
-
我感受到了您使用 OCR 的痛苦。您是否考虑过使用动态规划算法?最终的想法是让程序决定如何分组,并且这些决定可能必须以递归方式检查,每次迭代都会检查英语词典中的一个单词,以验证它是否是一个有效的单词。