【发布时间】:2020-02-19 17:54:09
【问题描述】:
我正在使用 SpaCy 对文本进行词形还原,但在某些特殊情况下,我需要保留原始文本并只需将复数名词转换为单数形式。 有没有办法告诉 SpaCy only 将复数名词转换为单数而不对整个文本进行词形还原(如删除 ed、ing...等)?或者我应该明确地测试每个标记以检查它是否是复数名词来获取它的引理?
附:输入文本是动态的,所以我事先不知道这个词是不是名词
谢谢
【问题讨论】:
-
您必须手动执行此操作。查看每个单词/标记的
tag_字段,并且仅在它是NNS或NNPS时对其进行词形还原。标签的完整列表可以找到here -
好的。请发表您的评论作为答案,以便我将其标记为正确答案。
-
但这也涉及调整动词形式,添加限定词,比如
Apples were there=>An apple was there,不是吗? -
@WiktorStribiżew:就我而言,我正在对本体概念进行词形还原,所以我只想处理名词。例如,我希望“倒排索引”变为:“倒排索引”,而不是“倒排索引”
标签: spacy lemmatization