【问题标题】:Dealing with imbalanced data by using weight使用权重处理不平衡数据
【发布时间】:2016-02-08 17:22:51
【问题描述】:

我的数据非常不平衡,目标是分类。首先,我想检查多数类的欠采样。 1 类有 600、2 类 90、3 类 60 和 4 类 96 样本数据!!!

使用权重:在 2 折交叉验证和随机森林模型中:

为什么使用权重,结果不是更好? 这是我的代码:cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:30,3:30,4:30}) 我的代码有什么问题吗?你能指导我吗?

【问题讨论】:

    标签: numpy import machine-learning scikit-learn random-forest


    【解决方案1】:

    实际的问题是你的任务是什么。你的任务是最大限度地提高模型的准确性,即使你有大量不成比例的类?如果是这样,您应该不要对测试集进行欠采样。事实上,您永远不会对测试集进行过采样或过采样,但是,在某些情况下,您可能会 - 为特定类添加权重以对真实先验(可能与经验先验不同)或由于成本敏感的学习。

    【讨论】:

    • 我尝试使用重量。我正在使用 sklearn 的随机森林,我不知道应该如何找到有效的权重数字。我使用了 cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:3,3:3,4:3}) 但它没有效果。我对第 2、3 和 4 组使用了更高的数字,例如 10、20 甚至 100。结果更糟。
    • 对不起,结果好一点还是一样
    猜你喜欢
    • 2020-06-27
    • 2017-04-19
    • 2017-11-23
    • 2020-09-25
    • 2022-10-14
    • 2018-11-19
    • 1970-01-01
    • 2021-05-29
    • 2012-12-03
    相关资源
    最近更新 更多