【发布时间】:2013-05-17 16:20:11
【问题描述】:
如果您有一个包含各种类实例的训练集,并且它是高度不平衡的。你会用什么策略来平衡它?
真实世界人口信息:7类,其中最小的占5%。
关于训练集的信息:频率与总体频率有很大不同。
这里有两个选项:
- 偏向于总体类别频率。
- 使其偏向均匀分布。
有了偏差,我打算使用 SMOTE 或成本敏感分类。
我不确定要遵循哪种策略。我也愿意接受其他建议。您如何评价该策略的成功与否?
【问题讨论】:
标签: statistics machine-learning