用于标记化推文的正则表达式模式

【问题标题】：Regex pattern for tokenizing tweets用于标记化推文的正则表达式模式
【发布时间】：2022-12-18 08:29:22
【问题描述】：

HHi，我正在构建一个情感分类模型，但是我用于推文标记化的正则表达式模式没有按预期工作。这是我目前的正则表达式模式：“(?u)\b\w\w+\b” 我需要这个新模式来完成它现在正在做的事情，但也需要删除每个标记中的任何数字。您能否基于此模式构建并帮助我更改它，以便它删除令牌中任何位置的所有数字。

这是我目前的正则表达式模式：“(?u)\b\w\w+\b”

【问题讨论】：

【解决方案1】：

w 包括字母数字字符， p{L} 是仅包含所有字母字符的扩展名，

你可以试试： p{L}{2,}

在 Python 中，这由 regex 支持，即：

import regex
>>> regex.findall(r"p{L}{2,}", "Hello, this is token, 123 this is n0t.")
['Hello', 'this', 'is', 'token', 'this', 'is']

在您不能使用 p{L} 的情况下，[a-z] 是可能的，但不会匹配所有语言。

我还建议检查和测试某些 graphiacl 应用程序中的所有正则表达式，例如：https://regex101.com/

【讨论】：