【问题标题】:detecting consecutive repeated letters from tweets从推文中检测连续重复的字母
【发布时间】:2015-01-27 03:36:20
【问题描述】:

我在机器学习中进行特征选择,我想检测 happyyyyyyyyyygoooodlooooooove 之类的词并将其替换为快乐,好,爱。我尝试使用正则表达式将连续重复的字母替换为相同的字母,但如果我这样做,与 looooooooove -> love 一起工作正常,但在 goooooood -> god 中失败。我收集了一个英文单词列表,例如 bookcoolchillingbreeze 等,但这个列表不是足以满足我的数据集。我需要参考才能继续,因为收集单词列表非常耗时。感谢您的回复。

【问题讨论】:

  • 感谢您的建议@AvinashRaj,但同样的方法不适用于诸如 breeeeed ->breed 之类的词,但正则表达式将其转换为 bred。还有像 boooook -> book、breeeezzzze->breeze 这样的词。你能帮我解决这个问题吗?
  • 那么用正则表达式很难。正则表达式如何知道这是一个完美的词,而这不是一个完美的词..
  • 我明白了,但是除了手动收集单词之外,您能建议我其他方式吗?
  • 给自己找一本可以使用的字典,或者写/找一个在维基百科上运行的自动收集单词的爬虫。

标签: machine-learning feature-selection


【解决方案1】:

要获得您的参考,请使用正则表达式(.)\1+ 使用grep 之类的东西来匹配单词列表中的单词(看看Dictionary text file 是一个很好的起点)。

你应该得到一个包含连续字母的单词列表,这样你就会有你的参考。

【讨论】:

    猜你喜欢
    • 2017-11-01
    • 2021-06-26
    • 1970-01-01
    • 2012-04-18
    • 2011-01-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多