【发布时间】:2014-11-23 21:42:43
【问题描述】:
我正在寻找一种方法来开发一个比较正面和负面词汇的机器学习数据集。例如,“有效”与“无效”或“可以使用”与“不能使用”或“星期四不”与“星期四”将是正面与负面。可以通过确定副词是肯定的还是否定的来简化它。我想知道这个或任何现有解决方案是否有任何可用的数据集。
【问题讨论】:
标签: regex machine-learning nlp
我正在寻找一种方法来开发一个比较正面和负面词汇的机器学习数据集。例如,“有效”与“无效”或“可以使用”与“不能使用”或“星期四不”与“星期四”将是正面与负面。可以通过确定副词是肯定的还是否定的来简化它。我想知道这个或任何现有解决方案是否有任何可用的数据集。
【问题讨论】:
标签: regex machine-learning nlp
您可以使用一些情感词典。
自动情感分析是文本分析的一种应用 识别文本数据中主观意见的技术。 它通常涉及将文本分类为以下类别 作为“正面”、“负面”,在某些情况下是“中性”[Source]
【讨论】:
创建数据集
搜索对某个观点有争论的文章。在那里,你会得到大部分的肯定句和否定句。在开始时,选择小段落。手动检查算法的效率。
解决方案
从非常基本的方法开始。就像搜索关键字“不”一样。然后去组合“不能”“不会”等。然后检查你是否错过了什么。
现在您可以采用更复杂的方法。就像那句话“我对设备采取了预防措施,它不会伤害我”。它给人一种积极的感觉。您应该寻找的是“不会伤害”。你看,won't 是否定词,harm 也是否定词。两者结合会产生积极的影响。
【讨论】: