从推文中检测连续重复的字母答案

【问题标题】：detecting consecutive repeated letters from tweets从推文中检测连续重复的字母
【发布时间】：2015-01-27 03:36:20
【问题描述】：

我在机器学习中进行特征选择，我想检测 happyyyyyyyyyy、gooood、looooooove 之类的词并将其替换为快乐，好，爱。我尝试使用正则表达式将连续重复的字母替换为相同的字母，但如果我这样做，与 looooooooove -> love 一起工作正常，但在 goooooood -> god 中失败。我收集了一个英文单词列表，例如 book、cool、chilling、breeze 等，但这个列表不是足以满足我的数据集。我需要参考才能继续，因为收集单词列表非常耗时。感谢您的回复。

【问题讨论】：

regex101.com/r/iZ5kC7/3
感谢您的建议@AvinashRaj，但同样的方法不适用于诸如 breeeeed ->breed 之类的词，但正则表达式将其转换为 bred。还有像 boooook -> book、breeeezzzze->breeze 这样的词。你能帮我解决这个问题吗？
那么用正则表达式很难。正则表达式如何知道这是一个完美的词，而这不是一个完美的词..
我明白了，但是除了手动收集单词之外，您能建议我其他方式吗？
给自己找一本可以使用的字典，或者写/找一个在维基百科上运行的自动收集单词的爬虫。

标签： machine-learning feature-selection

【解决方案1】：

要获得您的参考，请使用正则表达式(.)\1+ 使用grep 之类的东西来匹配单词列表中的单词（看看Dictionary text file 是一个很好的起点）。

你应该得到一个包含连续字母的单词列表，这样你就会有你的参考。

【讨论】：