【发布时间】:2014-04-22 12:23:29
【问题描述】:
我正在开展一个基于情感分析的产品分析学校项目。我一直在寻找一个训练数据集已经有一段时间了,到目前为止我能找到的是一个用于电影评论的数据集。我的问题是,我可以使用这个数据集来训练分类器,即它会对分类的准确性产生影响吗?如果是这样,这里有人知道我在哪里可以获得免费的产品评论数据集吗?
【问题讨论】:
标签: algorithm machine-learning dataset nlp sentiment-analysis
我正在开展一个基于情感分析的产品分析学校项目。我一直在寻找一个训练数据集已经有一段时间了,到目前为止我能找到的是一个用于电影评论的数据集。我的问题是,我可以使用这个数据集来训练分类器,即它会对分类的准确性产生影响吗?如果是这样,这里有人知道我在哪里可以获得免费的产品评论数据集吗?
【问题讨论】:
标签: algorithm machine-learning dataset nlp sentiment-analysis
我假设您正在使用一些文本模型,例如词袋模型。
根据我的实验,从一个域转换到另一个域时通常不会得到好的结果(即使训练数据集和测试都是产品,但属于不同的类别!)。
从逻辑上考虑,快速变热的烤箱通常表明产品质量好。笔记本电脑也一样吗?
几年前我尝试使用它时,我使用 amazon cmets 作为训练集并测试我的算法。
cmets 简短且内容丰富,足以获得约 80% 的准确度。 “基本”事实是恒星系统,其中 1-2 颗星是“负面”,3 颗星是“中性”,4-5 颗星是“正面”。
我用珍珠script from esuli.it 爬过亚马逊的cmets。
【讨论】: