通过训练分类器来注释数据集？

【问题标题】：annotate data set, by training a classifier?通过训练分类器来注释数据集？
【发布时间】：2014-04-21 21:50:22
【问题描述】：

我的dataset 有 5331 条正面评论和 5331 条负面评论。我想标记每条评论的强度。强度可以是“0”或“1”。他们是我可以手动标记 1000 条评论并训练分类器的任何技术吗？如果分类器表现非常好（比如 90% s-fold 验证），那么我可以使用分类器的输出填充剩余的评论吗？手动填充 1/10 的数据并预测剩余的数据是否合理？

我是机器学习的新手。

【问题讨论】：

标签： machine-learning classification

【解决方案1】：

您正在寻找的短语是情绪分析，是机器学习社会中众所周知的问题。它是 NLP 分类中比较简单的任务之一，因此很有可能您可以达到 90% 以上的准确率。一般来说，假设数据集足够大，10-CV 的分数是真实分类器行为的相当合理的近似值。还有其他（通常被认为更好的）技术，例如基于引导程序的技术 - 例如，谷歌搜索 Err^0.632。

【讨论】：

感谢您的回复。我知道情绪分析和意见挖掘。我在这里的问题更多地与用适当的标签标记训练值有关。我想使用上述数据集进行训练，并在其他数据集上使用学习模型。训练集有 10k 条评论，手动标记它们有点乏味。我会检查“Err^0.632”