【发布时间】:2015-01-27 03:36:20
【问题描述】:
我在机器学习中进行特征选择,我想检测 happyyyyyyyyyy、gooood、looooooove 之类的词并将其替换为快乐,好,爱。我尝试使用正则表达式将连续重复的字母替换为相同的字母,但如果我这样做,与 looooooooove -> love 一起工作正常,但在 goooooood -> god 中失败。我收集了一个英文单词列表,例如 book、cool、chilling、breeze 等,但这个列表不是足以满足我的数据集。我需要参考才能继续,因为收集单词列表非常耗时。感谢您的回复。
【问题讨论】:
-
感谢您的建议@AvinashRaj,但同样的方法不适用于诸如 breeeeed ->breed 之类的词,但正则表达式将其转换为 bred。还有像 boooook -> book、breeeezzzze->breeze 这样的词。你能帮我解决这个问题吗?
-
那么用正则表达式很难。正则表达式如何知道这是一个完美的词,而这不是一个完美的词..
-
我明白了,但是除了手动收集单词之外,您能建议我其他方式吗?
-
给自己找一本可以使用的字典,或者写/找一个在维基百科上运行的自动收集单词的爬虫。
标签: machine-learning feature-selection