【发布时间】:2023-04-11 05:17:01
【问题描述】:
OCR 生成的文本有时会附带工件,例如这个:
Diese grundsätzliche V e r b o r g e n h e i t Gottes, die sich n u r dem N a c h f o l g e r ö f f n e t , ist m i t d e m Messiasgeheimnis gemeint
虽然将字母之间的间距用作强调(可能是由于早期印刷机的限制)并不罕见,但它不利于检索任务。
如何将上述文本转换为更规范的形式,例如:
Diese grundsätzliche Verborgenheit Gottes, die sich nur dem Nachfolger öffnet, ist mit dem Messiasgeheimnis gemeint
这可以有效地处理大量文本吗?
一个想法是连接整个字符串(跳过猜测,单词边界在哪里),然后对其运行文本分割算法,可能类似于:http://norvig.com/ngrams/
【问题讨论】:
-
你只需要处理异常。编译一个 1 个字符长的德语单词列表。
-
它可能更复杂,你可能需要一个德语词典和一些语法规则。你应该接受一些错误......
-
我明白,您需要目标语言的语料库。与其要求一个具体的算法,我更感兴趣的是一般方向或设置和缩放问题等等。
-
我的回答有什么遗漏或错误吗?
-
@j_random_hacker,不,一点也不,我很高兴你的回答。我只是想看看,他们是否对这个话题有更多的看法。
标签: algorithm ocr text-processing information-retrieval text-segmentation