ml 统计基础 - 爱码网

roc曲线理解

Precison（查准率）：预测为正例的样本中真正正例的比例。

Recall（召回率）：真正为正例的样本有多少被预测出来。

正确率：正负例都对的比例。

优势：正负样本的分布变化时（即比例大改变），ROC曲线能够保持不变。

ml 统计基础

在上图中，a和c为ROC曲线，b和d为Precison和Recall曲线。a和b展示的是在原始测试集（正负样本平衡）的结果，c和d是将测试集中负样本的数量变为原来的10倍后分类器的结果。可以看出，曲线基本保持不变，而Precison和Recall变化较大。

ROC可以用来比较不同分类器的相关性能。

如图是一个ROC曲线的实例：

ml 统计基础

其中横坐标为FPR（False positive rate 假阳率），纵坐标为真阳率TPR（True postive rate）。

FPR：所有负例中有多少被预测为正例； TPR：有多少真正的正例被预测出来；

ROC 描绘了两者的相对权衡：

下图给出了Precison，Recall, FPR,TPR的定义：

ml 统计基础预测为正例的样本中有多少真正的正例

ml 统计基础所有的正例中有多少被预测出来

ml 统计基础所有的负样本中有多少被预测为正例

ml 统计基础等同于recall

F-measure: precison和recall的调和平均值。没有一个单个的度量可以告诉所有的信息，所以建议使用多个度量。

接下来我们考虑ROC曲线中的四个点和一条线。

1.（0,0）：fp=tp=0 ，即所有样本都被预测为负样本；

2.（1,1）：fp=tp=1，所有样本都被预测为正样本；

3.（1,0）：fp=1，tp=0，所有正例都被预测为负例，而所有正例都没被预测出来，这时最糟糕的分类器，因为它成功的避开了所有正确答案。

4.（0,1）：fp=0，tp=1，这是一个完美的分类器，它将所有样本都正确分类。

所以经过上述分析，我们可以断言，ROC曲线越接近左上角，该分类器的性能越好，意味着分类器在假阳率很低的同时获得了很高的真阳率。

5. 虚线y=x：这条对角线熵的点其实代表的是一个采用随机猜测策略的分类器的结果。例如（0.5,0.5），表示对于一半的样本猜测其为正样本，另外一半样本为负样本。出现在右下角三角形中的任何分类器都比随机猜测更糟糕。因此，在ROC图中，此三角形通常为空。