【发布时间】:2013-02-19 23:40:27
【问题描述】:
我知道 weka 中的 AUC/ROC 区域 (http://weka.wikispaces.com/Area+under+the+curve) 是基于 e Mann Whitney 统计 (http://en.wikipedia.org/wiki/Mann-Whitney_U)
但我的疑问是,如果我有 10 个标记实例(Y 或 N,二进制目标属性),通过将算法(即 J48)应用于数据集,那么这 10 个实例上有 10 个预测标签。那我到底应该用什么来计算 AUC_Y、AUC_N 和 AUC_Avg?使用预测的排名标签 Y 和 N 还是实际标签(Y' 和 N')?或者我需要计算TP率和FP率?
谁能给我一个小例子,并指出我应该使用哪些数据来计算基于 Mann Whitney 统计方法的 AUC?提前致谢。
样本数据:
inst# actual predicted error PrY PrN
1 1:y 1:y *0.973 0.027
2 1:y 1:y *0.999 0.001
3 2:n 1:y + *0.568 0.432
4 2:n 2:n 0.382 *0.618
5 1:y 2:n + 0.421 *0.579
6 2:n 2:n 0.146 *0.854
7 1:y 1:y *1 0
8 1:y 1:y *0.999 0.001
9 2:n 2:n 0.11 *0.89
10 1:y 2:n + 0.377 *0.623
【问题讨论】:
-
AUC_Y、AUC_N 和 AUC_Avg 是什么意思? Afaik,只有 AUC。
标签: classification weka evaluation prediction roc