【发布时间】:2012-04-09 11:50:00
【问题描述】:
我想知道将“haaaaapppppyyy”之类的内容转换为“haappyy”的最佳方法是什么。
基本上,在解析俚语时,人们有时会重复字符以增加重点。
我想知道最好的方法是什么?使用set() 不起作用,因为字母的顺序显然很重要。
有什么想法吗?我正在使用 Python + nltk。
【问题讨论】:
-
基本上,如果一个字母在同一个单词中连续重复 > 2 次,我只会这样做,所以实际上这个词实际上是“haappy”的逻辑。不过,我可以使用附魔来进行拼写检查。
-
哦,对不起,忘了我重复了“y”,是的,应该是“haappyy”
-
与字典匹配也是一个很好的问题:通过删除重复找到最短的真实单词。这不是微不足道的,因为有些单词有两个或多个双字母(想想“簿记员”)。