【问题标题】:Machine Learning Manual Labeling Quality机器学习手册标签质量
【发布时间】:2014-03-24 19:39:32
【问题描述】:
我有一个多标签分类任务。
有一组标签,当我评估性能时,我发现通常所有标签都可以分为两组,性能好的标签和性能差的标签,它们之间的差距很大。
我正在寻找一种方法来评估手动标签的质量。我知道这不是微不足道的,但我肯定可以做一些调查。例如,在好的标签中,我看到一组具有高权重的属性来表征这些标签,而对于性能不佳的标签,我看不到任何好的特征。
还有什么办法可以看出好标签和坏标签之间的区别?
【问题讨论】:
标签:
machine-learning
classification
【解决方案1】:
如果没有关于您的设置的更多详细信息,很难给出任何具体建议。
众包数据常用的一种方法是向多人询问标签。如果标签本质上是分类的,则仅使用由几个标注者选择的标签。如果标签是连续的,它们通常是平均的。您需要始终考虑一些标签制作者恶意添加噪音或不完全理解任务的可能性。
不过,你需要小心。如果你的标签是合理的,那么你的实验结果告诉你的是,你所拥有的属性并不擅长估计标签。因此,您可能会遇到描述问题,而不是标签质量问题。这些描述问题在 NLP 和计算机视觉中很常见,例如难以描述感兴趣的对象。
如果您可以添加更多关于您的数据、您想要完成的内容以及您的具体实验的结果,我可以添加更具体的建议。