【发布时间】:2021-02-03 16:04:07
【问题描述】:
我正在使用 Spacy 词形还原来预处理文本。
doc = 'ups'
for i in nlp(doc):
print(i.lemma_)
>> up
我明白为什么 spacy 会删除“s”,但对我来说很重要的是,在这种情况下,它不会这样做。有没有办法向 spacy 添加特定规则,或者我必须在进程之外使用 If 语句(这是我不想做的事情)
【问题讨论】:
-
您可以自定义查找和规则的内部表格,但详细信息取决于
nlp的配置方式。加载了哪种模型/语言,管道是否包含标记器? -
管道仅用于词形还原。我使用: nlp.pipe(sentence.split(),disable=["parser","ner"]) 。将每个单词作为上下文中的“孤独”单词运行。知道如何更改流程以仅针对这些情况包含词形还原规则而不丢失所有其他情况吗?
-
什么是
nlp? -
en_core_web_sm 模型