【问题标题】:Correcting words broken into syllables in a text更正文本中分成音节的单词
【发布时间】:2021-11-26 09:59:16
【问题描述】:

我使用 Python 将 .pdf 文件转换为 .txt。通过删除特殊字符或某些我不想要的字符来“清理”文本相当容易,但是我有一个有趣的问题,除了手动之外我还没有设法解决。

文本是德语,一些单词被分成音节(它们可能就像原始 .pdf 中的那样)。所以我有类似的东西

Das ist die Belastung eines Grundstücks mit der Haftung für bestimmte, in der Regel wiederkeh-
rende Leistungen des jeweiligen Grundeigentümers.

仅删除连字符不是一个好主意,因为有时它们是有意义的,例如在Verkehrs- und Tarifverbund Stuttgart 中。

有什么方法可以避免手动操作吗?它几乎出现在每句话中。

【问题讨论】:

  • 那你能留下所有连字符吗?

标签: python text data-cleaning


【解决方案1】:

如果单词由于太长而在行尾被拆分,您应该可以删除"-\n"(将其替换为"")。

如果您的文档使用其他特殊字符来表示行尾,则需要将\n 替换为该字符。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-10-13
    • 2012-02-24
    • 2018-08-30
    • 2011-04-18
    • 1970-01-01
    • 2023-02-25
    • 2010-09-29
    相关资源
    最近更新 更多