【发布时间】:2018-12-26 14:00:00
【问题描述】:
我使用 sci-kit learn 构建了一个随机森林模型来预测保险续订。这很棘手,因为在我的数据集中,96.24% 更新,而只有 3.76% 不更新。运行模型后,我使用混淆矩阵、分类报告和 ROC 曲线评估模型性能。
[[ 2448 8439]
[ 3 278953]]
precision recall f1-score support
0 1.00 0.22 0.37 10887
1 0.97 1.00 0.99 278956
avg / total 0.97 0.97 0.96 289843
我的 ROC 曲线是这样的:
该模型预测续订率略低于 100%(四舍五入为 1.00,请参阅召回列),不续订率约为 22%(请参阅召回列)。 ROC 曲线表明曲线下的面积远大于图右下部分所示的面积(面积 = 0.61)。
有人知道为什么会这样吗?
谢谢!
【问题讨论】:
-
这个问题比较适合stats.stackexchange.com。我同意通过检查可以看到曲线下的面积必须大于 0.61,所以我不知道这个数字是从哪里来的。然而,也许平滑曲线不是实际 ROC 的准确表示——也许实际 ROC 不是平滑曲线而是一些凹凸不平的曲线,因此它的面积实际上是 0.61。我的建议是获取分数和实际标签,然后自己构建 ROC 并进行比较。
标签: machine-learning statistics roc