【发布时间】:2019-11-08 16:32:13
【问题描述】:
我需要对包含数字和字母数字字符的字符串进行词形还原。示例:
'strawberries1234!@ apples123@'
我还需要保留那些特殊字符和数字。所以上面例子的输出是,
'strawberry1234!@ apple123@'
我需要在大型数据集上执行此操作,因此代码需要尽可能高效。
谢谢。
【问题讨论】:
-
需要更多细节。你只是想把复数形式变成单数形式?这不是一项小任务,因为它似乎需要某种形式的 NLP。到目前为止,您尝试过什么?
-
基本上,是的。只需使用正则表达式 r'[^a-zA-Z]' 进行拆分,即可轻松提取字母。我不知道如何取回数字和特殊字符。
-
正则表达式有特殊字符来提取数字。
-
这些特殊字符和数字在处理后应该出现在输出中各自的位置。正如我在示例中提到的,'strawberries1234!@' 中的 '1234!@' 应该出现在输出中的 'strawberry' 之后......就像 'strawberry1234!@'
标签: python-3.x nlp lemmatization