【发布时间】:2018-03-18 13:54:43
【问题描述】:
我有一组带标签的训练数据,我正在训练一个机器学习算法来预测标签。但是,我的一些数据点比其他数据点更重要。或者,类似地,这些点的不确定性比其他点少。
是否有一种通用方法可以为模型中的每个训练点添加一个表示重要性的权重?是否有一些特定的模型能够做到这一点,而另一些则没有?
我可以想象复制这些点(并且可能会稍微涂抹它们的特征以避免完全重复),或者对不太重要的点进行下采样。有没有更优雅的方法来解决这个问题?
【问题讨论】:
标签: machine-learning scikit-learn training-data