【发布时间】:2019-08-28 17:56:06
【问题描述】:
我将 NLTK WordNet Lemmatizer 用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现 lemmatizer 没有像我预期的那样运行。
例如,单词loves 被词形还原为love,这是正确的,但词loving 即使在词形还原之后仍然是loving。这里loving 就像句子“我很喜欢它”一样。
love不是变形词loving的词干吗?类似地,许多其他“ing”形式在词形还原后保持不变。这是正确的行为吗?
还有哪些其他准确的词形还原器? (不需要在 NLTK 中)在决定词干时,是否有形态分析器或词形还原器也考虑到词的词性标签?例如,如果killing 用作动词,单词killing 应该有kill 作为词干,但如果它用作名词,它应该有killing 作为词干(如the killing was done by xyz) .
【问题讨论】: