1. AUC的直观解释

大家都知道AUC是ROC下方的面积,ROC是什么?ROC怎么画呢?
TRR = (TPTP+FN)\left(\frac{TP}{TP+FN}\right) 又称真正率
FPR = (FPFP+TN)\left(\frac{FP}{FP+TN}\right) 又称负正率或假正率
TP、FN、FP、TN如图:
AUC的相关知识我们先建立坐标系,纵轴为真正率,横轴为负正率,恒过(0,0)和(1,1),为什么?
因为观察TPR和FPR,如果我们将所有数据都判断为假,那么TPR=FPR=0;同理,我们把所有数据判断为真,那么TPR=FPR=1,故恒过(0,0)和(1,1)。

如何计算画ROC曲线,我们将所有所有数据按照预测概率有小到大排列:
AUC的相关知识
我们设置阈值为0.1 ,小于等于0.1的判定为假,label为0, 大于0.1判断为真,label为1。可以计算此时的TPR和FPR;同理接下来设置阈值为0.35、0.4、0.8,分别求出TPR和FPR,在图中画出,再和(0,0)(1,1)相连,则画出ROC曲线。
AUC的相关知识AUC则为ROC下方面积,AUC的物理意义和计算公式接下来讲解。

2. AUC的物理意义

AUC?

AUC这个指标想表达的含义,简单来说其实就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。
AUC=P(P正>P负)

AUC的计算公式:

参考:https://blog.csdn.net/qq_22238533/article/details/78666436

共两种形式,其中注意第二种如下:

AUC的相关知识
如何去理解呢?

参考:https://blog.csdn.net/lmm6895071/article/details/102511017#1_AUC__3

从小到大排序后,第一个正样本的位置(序号,序号从0开始),就是其比负样本得分大的个数;对于第二个正样本,前面有已经1个正样本了,所以负样本个数为位置减去1,同理,第三个正样本前面的负样本个数为位置减去2,……,对于第M个正样本,匹配的负样本个数为位置序号减去M-1。 故而,分子就变成 所有正样本的位置序号和,减去(0+1+2+……+M-1)=sum()-M*(M-1)/2. 若序号从1开始,则,=sum()-M -(0+1+2+……+M-1)=sum()-M(M+1)/2.

相关文章: