【问题标题】:annotate data set, by training a classifier?通过训练分类器来注释数据集?
【发布时间】:2014-04-21 21:50:22
【问题描述】:

我的dataset 有 5331 条正面评论和 5331 条负面评论。我想标记每条评论的强度。强度可以是“0”或“1”。 他们是我可以手动标记 1000 条评论并训练分类器的任何技术吗?如果分类器表现非常好(比如 90% s-fold 验证),那么我可以使用分类器的输出填充剩余的评论吗?手动填充 1/10 的数据并预测剩余的数据是否合理?

我是机器学习的新手。

【问题讨论】:

    标签: machine-learning classification


    【解决方案1】:

    您正在寻找的短语是情绪分析,是机器学习社会中众所周知的问题。它是 NLP 分类中比较简单的任务之一,因此很有可能您可以达到 90% 以上的准确率。一般来说,假设数据集足够大,10-CV 的分数是真实分类器行为的相当合理的近似值。还有其他(通常被认为更好的)技术,例如基于引导程序的技术 - 例如,谷歌搜索 Err^0.632。

    【讨论】:

    • 感谢您的回复。我知道情绪分析和意见挖掘。我在这里的问题更多地与用适当的标签标记训练值有关。我想使用上述数据集进行训练,并在其他数据集上使用学习模型。训练集有 10k 条评论,手动标记它们有点乏味。我会检查“Err^0.632”
    猜你喜欢
    • 2016-07-03
    • 2019-10-17
    • 2012-08-14
    • 1970-01-01
    • 1970-01-01
    • 2018-04-19
    • 1970-01-01
    • 2020-08-15
    • 2019-08-25
    相关资源
    最近更新 更多