【问题标题】:Multiclass classification imbalance多类分类不平衡
【发布时间】:2020-05-16 10:34:25
【问题描述】:

我有 5 个不同的标签,频率百分比如下:

 '0': 23.21%
 '1': 17.64%
 '2': 29.64%
 '3': 16.96%
 '4': 12.57%

我如何评估这是否会严重影响我的预测?我有大约 1800 条记录,每条记录有 28 个特征。

我考虑过使用混淆矩阵的交叉验证,但我对此不太确定

【问题讨论】:

  • 你可以使用class_weights。

标签: python machine-learning scikit-learn imbalanced-data


【解决方案1】:

您可以使用将每个标签的样本数考虑在内的性能衡量标准,例如micro- or weighted-averaged F1 score

【讨论】:

    猜你喜欢
    • 2013-06-07
    • 1970-01-01
    • 2015-01-28
    • 2020-10-24
    • 2021-06-28
    • 2013-12-26
    • 2020-03-01
    • 2017-05-26
    • 2020-10-11
    相关资源
    最近更新 更多