【发布时间】:2019-04-10 10:18:26
【问题描述】:
假设我有一个字符串,例如
'I hate *some* kinds of duplicate. This string has a duplicate phrase, duplicate phrase.'
我想删除 duplicate phrase 的第二次出现而不删除其组成部分的其他出现,例如 duplicate 的其他使用。
此外,我需要删除所有 潜在重复的短语,而不仅仅是我事先知道的某些特定短语的重复。
我找到了几篇关于类似问题的帖子,但没有一个可以帮助我解决我的特定问题:
我曾希望将最后一个链接 (re.sub(r'\b(.+)(\s+\1\b)+', r'\1', s)) 中的方法用于我的目的,但不知道该怎么做。
如何从 Python 中的字符串中删除两个或多个单词的所有任意重复短语?
【问题讨论】:
-
这些短语的大小是任意的吗?它们可以出现在文本的任何位置吗?
-
例如,这个
'aaa ccc bbb aaa ccc'有重复的短语"aaa ccc",但要找出它,您必须遍历字符串中的所有短语。也许后缀树可以帮助更快。
标签: python regex python-2.7 replace