使用权重处理不平衡数据

【问题标题】：Dealing with imbalanced data by using weight使用权重处理不平衡数据
【发布时间】：2016-02-08 17:22:51
【问题描述】：

我的数据非常不平衡，目标是分类。首先，我想检查多数类的欠采样。 1 类有 600、2 类 90、3 类 60 和 4 类 96 样本数据！！！

使用权重：在 2 折交叉验证和随机森林模型中：

为什么使用权重，结果不是更好？这是我的代码：cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:30,3:30,4:30}) 我的代码有什么问题吗？你能指导我吗？

【问题讨论】：

标签： numpy import machine-learning scikit-learn random-forest

【解决方案1】：

实际的问题是你的任务是什么。你的任务是最大限度地提高模型的准确性，即使你有大量不成比例的类？如果是这样，您应该不要对测试集进行欠采样。事实上，您永远不会对测试集进行过采样或过采样，但是，在某些情况下，您可能会 - 为特定类添加权重以对真实先验（可能与经验先验不同）或由于成本敏感的学习。

【讨论】：

我尝试使用重量。我正在使用 sklearn 的随机森林，我不知道应该如何找到有效的权重数字。我使用了 cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:3,3:3,4:3}) 但它没有效果。我对第 2、3 和 4 组使用了更高的数字，例如 10、20 甚至 100。结果更糟。
对不起，结果好一点还是一样