【问题标题】:Regex pattern for tokenizing tweets用于标记化推文的正则表达式模式
【发布时间】:2022-12-18 08:29:22
【问题描述】:

HHi,我正在构建一个情感分类模型,但是我用于推文标记化的正则表达式模式没有按预期工作。 这是我目前的正则表达式模式:“(?u)\b\w\w+\b” 我需要这个新模式来完成它现在正在做的事情,但也需要删除每个标记中的任何数字。您能否基于此模式构建并帮助我更改它,以便它删除令牌中任何位置的所有数字。

这是我目前的正则表达式模式:“(?u)\b\w\w+\b”

【问题讨论】:

    标签: python regex machine-learning text-classification nsregularexpression


    【解决方案1】:

    w 包括字母数字字符, p{L} 是仅包含所有字母字符的扩展名,

    你可以试试: p{L}{2,}

    在 Python 中,这由 regex 支持,即:

    import regex
    >>> regex.findall(r"p{L}{2,}", "Hello, this is token, 123 this is n0t.")
    ['Hello', 'this', 'is', 'token', 'this', 'is']
    

    在您不能使用 p{L} 的情况下,[a-z] 是可能的,但不会匹配所有语言。

    我还建议检查和测试某些 graphiacl 应用程序中的所有正则表达式,例如:https://regex101.com/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-07-24
      • 2011-04-11
      • 1970-01-01
      • 1970-01-01
      • 2017-06-19
      • 1970-01-01
      • 2011-09-06
      • 2018-05-25
      相关资源
      最近更新 更多