混淆矩阵和ROC曲线答案

【问题标题】：Confusion matrix and ROC curve混淆矩阵和ROC曲线
【发布时间】：2018-12-26 14:00:00
【问题描述】：

我使用 sci-kit learn 构建了一个随机森林模型来预测保险续订。这很棘手，因为在我的数据集中，96.24% 更新，而只有 3.76% 不更新。运行模型后，我使用混淆矩阵、分类报告和 ROC 曲线评估模型性能。

[[  2448   8439]
 [     3 278953]]


             precision    recall  f1-score   support

          0       1.00      0.22      0.37     10887
          1       0.97      1.00      0.99    278956

avg / total       0.97      0.97      0.96    289843

我的 ROC 曲线是这样的：

该模型预测续订率略低于 100%（四舍五入为 1.00，请参阅召回列），不续订率约为 22%（请参阅召回列）。 ROC 曲线表明曲线下的面积远大于图右下部分所示的面积（面积 = 0.61）。

有人知道为什么会这样吗？

谢谢！

【问题讨论】：

这个问题比较适合stats.stackexchange.com。我同意通过检查可以看到曲线下的面积必须大于 0.61，所以我不知道这个数字是从哪里来的。然而，也许平滑曲线不是实际 ROC 的准确表示——也许实际 ROC 不是平滑曲线而是一些凹凸不平的曲线，因此它的面积实际上是 0.61。我的建议是获取分数和实际标签，然后自己构建 ROC 并进行比较。

标签： machine-learning statistics roc

【解决方案1】：

在类高度不平衡的情况下，ROC 被证明是一个不合适的指标。更好的衡量标准是使用平均精度或 PR 曲线下的面积。

此支持Kaggle link 在类似的问题设置中谈论完全相同的问题。

This answer and the linked paper 解释说，优化 PR 曲线下的最佳面积也会得到最好的 ROC。

【讨论】：