【发布时间】:2017-08-07 17:34:13
【问题描述】:
如果我想制作一个像 NLTK 这样的 NLP 工具包,我会在标记化和规范化之后首先实现哪些功能。词性标注还是词形还原?
【问题讨论】:
标签: python nlp nltk pos-tagger lemmatization
如果我想制作一个像 NLTK 这样的 NLP 工具包,我会在标记化和规范化之后首先实现哪些功能。词性标注还是词形还原?
【问题讨论】:
标签: python nlp nltk pos-tagger lemmatization
词性对于词形还原很重要,因为词的含义因词性而异。并且使用此信息,词形还原将返回基本形式或引理。所以,最好先实现 POS Tagging。
词形还原背后的主要思想是将单词的不同变形形式归为一个。例如,go、going、gone 和 went 将成为一个 - go。但要得出这一点,词形还原必须知道一个词的上下文——这个词是名词还是动词等。
因此,lemmatisation函数可以将单词和词性作为输入,并在处理完信息后返回lemma。
【讨论】:
请务必先制作 POS Tagger。如果您首先进行词形还原,则在执行词性标注时可能会丢失最佳的单词分类,尤其是在 歧义 很常见的语言中,例如葡萄牙语。
【讨论】: