【问题标题】:What is the real purpose of Stemming in NLP?NLP 中 Stemming 的真正目的是什么?
【发布时间】:2020-01-23 06:44:50
【问题描述】:

我对词干提取和词形还原的了解如下:
词干提取 - 将单词转换为不变的部分;有趣,娱乐 - amus
lemmatizing - 将单词转换为字典形式;有趣,娱乐 - 逗乐
我可以理解为什么要使用词形还原。但我不明白做词干背后的目的吗?能解释一下吗?

【问题讨论】:

  • 你对 stemming 的输出有什么理解?你是怎么理解的?

标签: nlp stemming lemmatization


【解决方案1】:

正如你所说的词干 - 将单词转换为不变的部分

and lemmatizing - 将单词转换为字典形式

BOW 或 tf-idf 等机器学习算法与词频

有关

让我们以您在问题中提供的示例为例。

带词干

amusing, amusement 两个词都返回 amus,因此这些词将被视为相同,amus 的频率将为 2。

带有词形还原 amusing, amusement 两个词都返回 amuse 所以这些词将再次被视为相同,amuse 的频率将为 2

在您的模型中(在这种特殊情况下)使用词干或引理都没有关系

词干只是从单词中去除字母,而词形还原需要查看字典以查找相关单词,因此显然比词形还原更快

所以如果你想加快预处理速度,你可以选择stemming 而不是lemmatization

缺点

在词干的情况下

学习会给学习和 研究将给予研究

即使这些词有相同的词根,这些词也会被视为不同的

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-08-03
    • 1970-01-01
    • 2017-10-19
    • 2012-05-06
    • 2022-11-10
    • 2014-05-31
    • 2011-02-08
    • 2013-07-22
    相关资源
    最近更新 更多