从单词中删除重复字符答案

【问题标题】：Remove repeating characters from words从单词中删除重复字符
【发布时间】：2012-04-09 11:50:00
【问题描述】：

我想知道将“haaaaapppppyyy”之类的内容转换为“haappyy”的最佳方法是什么。

基本上，在解析俚语时，人们有时会重复字符以增加重点。

我想知道最好的方法是什么？使用set() 不起作用，因为字母的顺序显然很重要。

有什么想法吗？我正在使用 Python + nltk。

【问题讨论】：

【解决方案1】：

可以使用正则表达式来完成：

>>> import re
>>> re.sub(r'(.)\1+', r'\1\1', "haaaaapppppyyy")     
'haappyy'

(.)\1+ 将任何字符 (.) 后跟一个或多个相同字符（因为后向引用 \1 必须相同）替换为两倍的字符。

【讨论】：

【解决方案2】：

您可以使用itertools.groupby 压缩多次出现的字母：

>>> ''.join(c for c, _ in groupby("haaaaapppppyyy"))
'hapy'

同样，您可以从 groupby 获取 haappyy 与

>>> ''.join(''.join(s)[:2] for _, s in groupby("haaaaapppppyyy"))
'haappyy'

【讨论】：

【解决方案3】：

你应该在没有 reduce 或 regexps 的情况下这样做：

>>> s = 'hhaaaaapppppyyy'
>>> ''.join(['' if i>1 and e==s[i-2] else e for i,e in enumerate(s)])
'haappyy'

重复次数硬编码为上面的>1 和-2。一般情况：

>>> reps = 1
>>> ''.join(['' if i>reps-1 and e==s[i-reps] else e for i,e in enumerate(s)])
'hapy'

【讨论】：

【解决方案4】：

这是一种方法（仅限于 python 不会说英语的明显限制）。

>>> s="haaaappppyy"
>>> reduce(lambda x,y: x+y if x[-2:]!=y*2 else x, s, "")
'haappyy'

【讨论】：