【问题标题】:"Which one to choose? Lemmatization or Stemming?"“选择哪一个?词形还原还是词干化?”
【发布时间】:2021-10-19 23:44:56
【问题描述】:

要执行 NLP 任务,例如来自 KAGGLE 的“预测哪些推文是关于真正的灾难,哪些不是”,链接:https://www.kaggle.com/c/nlp-getting-started

我应该执行哪个任务来规范化我的文本,词形还原或词干提取?

谢谢!

【问题讨论】:

    标签: text nlp normalization kaggle


    【解决方案1】:

    这取决于你想做什么。

    词形还原是语言学的动机,通常更可靠地在将屈折词还原为其基本形式时给出正确的结果。但是,它更耗费资源。

    词干(通常)是一个简短的过程,它使用字符串匹配来删除字符串的一部分。这要快得多,不需要词典,但结果并不准确。

    输出也有区别:Lemmatisation保留了基类,所以revolved变成revolverevolution保持不变(它已经是基本形式)。在某些词干提取算法中,派生后缀 (-tion) 也被删除,因此上述所有内容都可能以 revol 结尾。这可能是您想要的,因为它返回类似于“词干”或基本语素的内容。

    【讨论】:

      猜你喜欢
      • 2014-11-02
      • 2021-09-11
      • 1970-01-01
      • 1970-01-01
      • 2017-08-07
      • 2010-10-20
      • 2013-07-15
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多