【问题标题】:Why in NLTK "not" is considered as stopping word in English?为什么在 NLTK 中“not”被认为是英语中的停止词?
【发布时间】:2020-05-27 19:19:42
【问题描述】:

我目前正在 Python 中学习 nltk,我正在编写一个用于情绪分析的程序。在研究它时,我发现“不是,也不是,从不”被认为是停止词。所以我的问题是为什么会这样,因为这类词会改变句子的整体含义,并可能导致情感分析失败。

【问题讨论】:

    标签: python nltk sentiment-analysis stop-words


    【解决方案1】:

    停用词通常是根据对语言中最常用词的分析创建的(这是其中“不”的主要原因)。它们背后的想法是允许分析(通常是词袋方法)专注于文档中更有趣的词。

    它们有多种用途:它们不是专门为情感分析而设计的。这是“不”存在的另一个原因。

    情绪分析的词袋方法总是会有点粗糙,不管有没有停用词。例如。使用负面词创建听起来逼真的正面电影评论并不难:

    “这部电影完全不是我的预期:我通常讨厌汤姆克鲁斯,但他让这部电影成功了。”

    “我从不看小鸡电影,但正如他们所说,永远不要说永远。”

    无论如何,请尝试自定义您的停用词列表,删除“not”和“never”,看看它是否会改善结果。然后再试一次,不要使用停用词。

    【讨论】:

      猜你喜欢
      • 2011-09-22
      • 1970-01-01
      • 1970-01-01
      • 2019-05-01
      • 2018-08-07
      • 1970-01-01
      • 2012-03-13
      • 2014-02-17
      • 1970-01-01
      相关资源
      最近更新 更多