如何解释列矩阵以找到不平衡数据集的最佳模型？答案

【问题标题】：How to interpret column matrix to find best model for imbalanced dataset?如何解释列矩阵以找到不平衡数据集的最佳模型？
【发布时间】：2021-04-30 15:35:47
【问题描述】：

我正在尝试进行二进制分类，但我的数据集不平衡，比例为 1:7。我有 1000 个“1”标签和 6990 个“0”标签。

预测“1”标签比“0”更重要，但它也应该尽可能正确地检测“0”标签。

我使用了采样技术并使用了不同的模型，例如 XGBClassifier、LightGBM、SVM、KNN，我得到了不同的混淆矩阵。在其中一些中，检测“1”标签非常好，但检测“O”不是很好。其他的，“1”和“O”检测都是平均的。

我知道准确度不是评估不平衡数据集的好指标，因此我使用了召回率、f2 分数和 AUC 分数。但是，我仍然对哪种模型最好感到困惑。

根据这些结果，哪个模型最好？

【问题讨论】：

【解决方案1】：

一种方法是使用不同的 k 折叠来验证您的模型。将您的数据分成 4 或 5 组训练测试对。获取不同测试的结果并取平均值。这应该可以让您更好地了解不同模型的性能。

【讨论】：