训练集平衡策略答案

【问题标题】：Training Set Balancing Strategies训练集平衡策略
【发布时间】：2013-05-17 16:20:11
【问题描述】：

如果您有一个包含各种类实例的训练集，并且它是高度不平衡的。你会用什么策略来平衡它？

真实世界人口信息：7类，其中最小的占5%。

关于训练集的信息：频率与总体频率有很大不同。

这里有两个选项：

有了偏差，我打算使用 SMOTE 或成本敏感分类。

我不确定要遵循哪种策略。我也愿意接受其他建议。您如何评价该策略的成功与否？

【问题讨论】：

【解决方案1】：

正如您所提到的，对于培训，您有两种选择。要么平衡你的数据集（如果你有大量的数据和/或少量的特征，这样丢弃一些样本不会影响学习），或者根据它们的频率对不同的类使用不同的权重。后者通常很简单，但取决于您选择的方法和库。

一旦您训练了分类器（在您的训练集上有一些先验），如果您的先验发生变化（训练和人口中的不同频率），您可以轻松更新预测概率。有一个很好的概述如何替换先前的信息，这比我在一篇简短的文章中解释得更好。查看Combining probabilities，第 3 节（替换先前信息）。

【讨论】：

这不是我真正想知道的。我在问自己，最优训练集是否应该将一个分布表示为种群，或者它是否应该偏向于均匀分布。
我想我理解了你的问题。你应该解释不平衡：所以如果你有足够的数据，要么训练平衡，要么训练不平衡对较小的类使用更大的权重。这两种方法都可以正常工作。如果您使用平衡集，则使用先验总体频率更新预测。
感谢您的坚持！我现在明白你的回答了。基本上你要说的是，我应该首先平衡训练集，然后用先验概率更新模型。谢谢！