【发布时间】:2021-04-30 15:35:47
【问题描述】:
我正在尝试进行二进制分类,但我的数据集不平衡,比例为 1:7。我有 1000 个“1”标签和 6990 个“0”标签。
预测“1”标签比“0”更重要,但它也应该尽可能正确地检测“0”标签。
我使用了采样技术并使用了不同的模型,例如 XGBClassifier、LightGBM、SVM、KNN,我得到了不同的混淆矩阵。在其中一些中,检测“1”标签非常好,但检测“O”不是很好。其他的,“1”和“O”检测都是平均的。
我知道准确度不是评估不平衡数据集的好指标,因此我使用了召回率、f2 分数和 AUC 分数。但是,我仍然对哪种模型最好感到困惑。
根据这些结果,哪个模型最好?
【问题讨论】:
标签: pandas scikit-learn data-science confusion-matrix imbalanced-data