【问题标题】:How to interpret column matrix to find best model for imbalanced dataset?如何解释列矩阵以找到不平衡数据集的最佳模型?
【发布时间】:2021-04-30 15:35:47
【问题描述】:

我正在尝试进行二进制分类,但我的数据集不平衡,比例为 1:7。我有 1000 个“1”标签和 6990 个“0”标签。

预测“1”标签比“0”更重要,但它也应该尽可能正确地检测“0”标签。

我使用了采样技术并使用了不同的模型,例如 XGBClassifier、LightGBM、SVM、KNN,我得到了不同的混淆矩阵。在其中一些中,检测“1”标签非常好,但检测“O”不是很好。其他的,“1”和“O”检测都是平均的。

我知道准确度不是评估不平衡数据集的好指标,因此我使用了召回率、f2 分数和 AUC 分数。但是,我仍然对哪种模型最好感到困惑。

根据这些结果,哪个模型最好?

【问题讨论】:

    标签: pandas scikit-learn data-science confusion-matrix imbalanced-data


    【解决方案1】:

    一种方法是使用不同的 k 折叠来验证您的模型。将您的数据分成 4 或 5 组训练测试对。获取不同测试的结果并取平均值。这应该可以让您更好地了解不同模型的性能。

    【讨论】:

      猜你喜欢
      • 2023-01-12
      • 2016-11-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-07-01
      • 1970-01-01
      • 2019-09-27
      • 2021-03-26
      相关资源
      最近更新 更多