【问题标题】:Regex pattern for tokenizing tweets用于标记化推文的正则表达式模式
【发布时间】:2022-12-18 08:29:22
【问题描述】:
HHi,我正在构建一个情感分类模型,但是我用于推文标记化的正则表达式模式没有按预期工作。
这是我目前的正则表达式模式:“(?u)\b\w\w+\b”
我需要这个新模式来完成它现在正在做的事情,但也需要删除每个标记中的任何数字。您能否基于此模式构建并帮助我更改它,以便它删除令牌中任何位置的所有数字。
这是我目前的正则表达式模式:“(?u)\b\w\w+\b”
【问题讨论】:
标签:
python
regex
machine-learning
text-classification
nsregularexpression
【解决方案1】:
w 包括字母数字字符,
p{L} 是仅包含所有字母字符的扩展名,
你可以试试:
p{L}{2,}
在 Python 中,这由 regex 支持,即:
import regex
>>> regex.findall(r"p{L}{2,}", "Hello, this is token, 123 this is n0t.")
['Hello', 'this', 'is', 'token', 'this', 'is']
在您不能使用 p{L} 的情况下,[a-z] 是可能的,但不会匹配所有语言。
我还建议检查和测试某些 graphiacl 应用程序中的所有正则表达式,例如:https://regex101.com/