【发布时间】:2021-11-26 09:59:16
【问题描述】:
我使用 Python 将 .pdf 文件转换为 .txt。通过删除特殊字符或某些我不想要的字符来“清理”文本相当容易,但是我有一个有趣的问题,除了手动之外我还没有设法解决。
文本是德语,一些单词被分成音节(它们可能就像原始 .pdf 中的那样)。所以我有类似的东西
Das ist die Belastung eines Grundstücks mit der Haftung für bestimmte, in der Regel wiederkeh-
rende Leistungen des jeweiligen Grundeigentümers.
仅删除连字符不是一个好主意,因为有时它们是有意义的,例如在Verkehrs- und Tarifverbund Stuttgart 中。
有什么方法可以避免手动操作吗?它几乎出现在每句话中。
【问题讨论】:
-
那你能留下所有连字符吗?
标签: python text data-cleaning