【问题标题】:Confusion matrix and ROC curve混淆矩阵和ROC曲线
【发布时间】:2018-12-26 14:00:00
【问题描述】:

我使用 sci-kit learn 构建了一个随机森林模型来预测保险续订。这很棘手,因为在我的数据集中,96.24% 更新,而只有 3.76% 不更新。运行模型后,我使用混淆矩阵、分类报告和 ROC 曲线评估模型性能。

[[  2448   8439]
 [     3 278953]]


             precision    recall  f1-score   support

          0       1.00      0.22      0.37     10887
          1       0.97      1.00      0.99    278956

avg / total       0.97      0.97      0.96    289843

我的 ROC 曲线是这样的:

该模型预测续订率略低于 100%(四舍五入为 1.00,请参阅召回列),不续订率约为 22%(请参阅召回列)。 ROC 曲线表明曲线下的面积远大于图右下部分所示的面积(面积 = 0.61)。

有人知道为什么会这样吗?

谢谢!

【问题讨论】:

  • 这个问题比较适合stats.stackexchange.com。我同意通过检查可以看到曲线下的面积必须大于 0.61,所以我不知道这个数字是从哪里来的。然而,也许平滑曲线不是实际 ROC 的准确表示——也许实际 ROC 不是平滑曲线而是一些凹凸不平的曲线,因此它的面积实际上是 0.61。我的建议是获取分数和实际标签,然后自己构建 ROC 并进行比较。

标签: machine-learning statistics roc


【解决方案1】:

在类高度不平衡的情况下,ROC 被证明是一个不合适的指标。更好的衡量标准是使用平均精度或 PR 曲线下的面积。

此支持Kaggle link 在类似的问题设置中谈论完全相同的问题。

This answer and the linked paper 解释说,优化 PR 曲线下的最佳面积也会得到最好的 ROC。

【讨论】:

    猜你喜欢
    • 2018-09-23
    • 2016-01-15
    • 2019-12-26
    • 2022-06-15
    • 1970-01-01
    • 2016-11-28
    • 2017-08-29
    • 2013-03-18
    相关资源
    最近更新 更多