【问题标题】:Training Set Balancing Strategies训练集平衡策略
【发布时间】:2013-05-17 16:20:11
【问题描述】:

如果您有一个包含各种类实例的训练集,并且它是高度不平衡的。你会用什么策略来平衡它?

真实世界人口信息:7类,其中最小的占5%。

关于训练集的信息:频率与总体频率有很大不同。

这里有两个选项:

  • 偏向于总体类别频率。
  • 使其偏向均匀分布。

有了偏差,我打算使用 SMOTE 或成本敏感分类。

我不确定要遵循哪种策略。我也愿意接受其他建议。您如何评价该策略的成功与否?

【问题讨论】:

    标签: statistics machine-learning


    【解决方案1】:

    正如您所提到的,对于培训,您有两种选择。要么平衡你的数据集(如果你有大量的数据和/或少量的特征,这样丢弃一些样本不会影响学习),或者根据它们的频率对不同的类使用不同的权重。后者通常很简单,但取决于您选择的方法和库。

    一旦您训练了分类器(在您的训练集上有一些先验),如果您的先验发生变化(训练和人口中的不同频率),您可以轻松更新预测概率。有一个很好的概述如何替换先前的信息,这比我在一篇简短的文章中解释得更好。查看Combining probabilities,第 3 节(替换先前信息)。

    【讨论】:

    • 这不是我真正想知道的。我在问自己,最优训练集是否应该将一个分布表示为种群,或者它是否应该偏向于均匀分布。
    • 我想我理解了你的问题。你应该解释不平衡:所以如果你有足够的数据,要么训练平衡,要么训练不平衡对较小的类使用更大的权重。这两种方法都可以正常工作。如果您使用平衡集,则使用先验总体频率更新预测。
    • 感谢您的坚持!我现在明白你的回答了。基本上你要说的是,我应该首先平衡训练集,然后用先验概率更新模型。谢谢!
    猜你喜欢
    • 2020-04-15
    • 2016-04-21
    • 2015-03-16
    • 2018-04-15
    • 2018-07-26
    • 1970-01-01
    • 2014-05-07
    • 2013-06-11
    • 2017-05-07
    相关资源
    最近更新 更多