【发布时间】:2011-09-22 20:20:42
【问题描述】:
我没有自然语言处理方面的正式背景,我想知道 NLP 方面是否有人可以对此有所了解。我正在玩 NLTK 库,我专门研究了这个包提供的停用词功能:
在 [80] 中: nltk.corpus.stopwords.words('english')
输出[80]:
['我','我','我的', “我自己”、“我们”、“我们的”、“我们的”、 “我们自己”、“你”、“你的”、 '你的','你自己','你自己', “他”,“他”,“他的”,“他自己”, “她”、“她”、“她的”、“她自己”、 “它”、“它”、“它自己”、“它们”、 “他们”,“他们的”,“他们的”, “他们自己”、“什么”、“哪个”、 “谁”、“谁”、“这个”、“那个”、 “这些”、“那些”、“我”、“是”、 '是','是','是','是', '曾经','存在','有','有', '有','有','做','做', '做了','做','a','an','the', '和','但是','如果','或', '因为','作为','直到','同时', 'of', 'at', 'by', 'for', 'with', '关于','反对','之间', '进入','通过','期间', '之前','之后','以上', '下面','到','从','上', “下”、“进”、“出”、“开”、“关”、 '结束','低于','再次', '进一步','然后','一次','这里', '那里','何时','在哪里','为什么', '如何','所有','任何','两者', '每个','少数','更多','大多数', “其他”、“一些”、“这样”、“不”、 '也不','不','只有','自己的', “相同”、“所以”、“比”、“太”、 '非常'、's'、't'、'can'、'will'、 “只是”、“不要”、“应该”、“现在”]
我不明白的是,为什么会出现“不”这个词?这不是确定句子中的情绪所必需的吗?比如这样的一句话:
我不确定是什么问题。
一旦停用词not 被删除,将句子的含义改变为相反的意思(I am sure what the problem is),就完全不同了。如果是这种情况,我是否缺少一组关于何时不使用这些停用词的规则?
【问题讨论】:
-
情感分析需要一种不同于文档分类和其他核心 NLP 任务的预处理方法。例如,在文档分类中,您会尽早丢弃标点符号,而在情感分析中,包括
!和?在您的特征集中可能会很好地改善您的结果。
标签: language-agnostic machine-learning nlp nltk stop-words