【发布时间】:2020-05-27 19:19:42
【问题描述】:
我目前正在 Python 中学习 nltk,我正在编写一个用于情绪分析的程序。在研究它时,我发现“不是,也不是,从不”被认为是停止词。所以我的问题是为什么会这样,因为这类词会改变句子的整体含义,并可能导致情感分析失败。
【问题讨论】:
标签: python nltk sentiment-analysis stop-words
我目前正在 Python 中学习 nltk,我正在编写一个用于情绪分析的程序。在研究它时,我发现“不是,也不是,从不”被认为是停止词。所以我的问题是为什么会这样,因为这类词会改变句子的整体含义,并可能导致情感分析失败。
【问题讨论】:
标签: python nltk sentiment-analysis stop-words
停用词通常是根据对语言中最常用词的分析创建的(这是其中“不”的主要原因)。它们背后的想法是允许分析(通常是词袋方法)专注于文档中更有趣的词。
它们有多种用途:它们不是专门为情感分析而设计的。这是“不”存在的另一个原因。
情绪分析的词袋方法总是会有点粗糙,不管有没有停用词。例如。使用负面词创建听起来逼真的正面电影评论并不难:
“这部电影完全不是我的预期:我通常讨厌汤姆克鲁斯,但他让这部电影成功了。”
“我从不看小鸡电影,但正如他们所说,永远不要说永远。”
无论如何,请尝试自定义您的停用词列表,删除“not”和“never”,看看它是否会改善结果。然后再试一次,不要使用停用词。
【讨论】: