1. AUC的直观解释
大家都知道AUC是ROC下方的面积,ROC是什么?ROC怎么画呢?
TRR = 又称真正率
FPR = 又称负正率或假正率
TP、FN、FP、TN如图:我们先建立坐标系,纵轴为真正率,横轴为负正率,恒过(0,0)和(1,1),为什么?
因为观察TPR和FPR,如果我们将所有数据都判断为假,那么TPR=FPR=0;同理,我们把所有数据判断为真,那么TPR=FPR=1,故恒过(0,0)和(1,1)。
如何计算画ROC曲线,我们将所有所有数据按照预测概率有小到大排列:
我们设置阈值为0.1 ,小于等于0.1的判定为假,label为0, 大于0.1判断为真,label为1。可以计算此时的TPR和FPR;同理接下来设置阈值为0.35、0.4、0.8,分别求出TPR和FPR,在图中画出,再和(0,0)(1,1)相连,则画出ROC曲线。AUC则为ROC下方面积,AUC的物理意义和计算公式接下来讲解。
2. AUC的物理意义
AUC?
AUC这个指标想表达的含义,简单来说其实就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。
AUC=P(P正>P负)
AUC的计算公式:
参考:https://blog.csdn.net/qq_22238533/article/details/78666436
共两种形式,其中注意第二种如下:
如何去理解呢?
参考:https://blog.csdn.net/lmm6895071/article/details/102511017#1_AUC__3
从小到大排序后,第一个正样本的位置(序号,序号从0开始),就是其比负样本得分大的个数;对于第二个正样本,前面有已经1个正样本了,所以负样本个数为位置减去1,同理,第三个正样本前面的负样本个数为位置减去2,……,对于第M个正样本,匹配的负样本个数为位置序号减去M-1。 故而,分子就变成 所有正样本的位置序号和,减去(0+1+2+……+M-1)=sum()-M*(M-1)/2. 若序号从1开始,则,=sum()-M -(0+1+2+……+M-1)=sum()-M(M+1)/2.