【问题标题】:Which comes first in order of implementation: POS Tagging or Lemmatisation?执行顺序哪个先出现:词性标记还是词形还原?
【发布时间】:2017-08-07 17:34:13
【问题描述】:

如果我想制作一个像 NLTK 这样的 NLP 工具包,我会在标记化和规范化之后首先实现哪些功能。词性标注还是词形还原?

【问题讨论】:

    标签: python nlp nltk pos-tagger lemmatization


    【解决方案1】:

    词性对于词形还原很重要,因为词的含义因词性而异。并且使用此信息,词形还原将返回基本形式或引理。所以,最好先实现 POS Tagging。

    词形还原背后的主要思想是将单词的不同变形形式归为一个。例如,go、going、gonewent 将成为一个 - go。但要得出这一点,词形还原必须知道一个词的上下文——这个词是名词还是动词等。

    因此,lemmatisation函数可以将单词和词性作为输入,并在处理完信息后返回lemma。

    【讨论】:

    • 您介意进一步解释一下我如何集成 POS 标签来帮助我进行词形还原吗?
    • 当然,我更新了答案,请检查是否是您要查找的内容
    【解决方案2】:

    请务必先制作 POS Tagger。如果您首先进行词形还原,则在执行词性标注时可能会丢失最佳的单词分类,尤其是在 歧义 很常见的语言中,例如葡萄牙语。

    【讨论】:

      猜你喜欢
      • 2021-10-19
      • 1970-01-01
      • 2014-11-02
      • 2013-07-15
      • 1970-01-01
      • 2018-01-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多