【发布时间】:2013-12-01 15:37:13
【问题描述】:
Rand 和 Jaccard 相似度/验证指数的理论区别是什么?
我对方程不感兴趣,但对它们差异的解释感兴趣。
我知道 Jaccard 索引忽略了真正的否定,但为什么呢?这会产生什么样的影响?
谢谢
【问题讨论】:
标签: validation statistics probability similarity
Rand 和 Jaccard 相似度/验证指数的理论区别是什么?
我对方程不感兴趣,但对它们差异的解释感兴趣。
我知道 Jaccard 索引忽略了真正的否定,但为什么呢?这会产生什么样的影响?
谢谢
【问题讨论】:
标签: validation statistics probability similarity
我在计算生物学硕士论文中使用了这些,因此希望我能够以对您有所帮助的方式回答这个问题-
较短的版本 -
J=TP/(TP+FP+FN) 而R=(TP+TN)/(TP+TN+FP+FN)
当然,根据定义,Jaccard 忽略了 TN。对于非常大的数据集,TN 的数量可能非常大,我的论文就是这种情况。所以,这个词推动了所有的分析。当我从 rand index 转到 Jaccard Index 时,我忽略了 TN 的贡献,并且能够更好地理解事物。
更长的版本-
Rand 和 Jaccard 指数比通常的响应特征统计(如灵敏度/特异性等)更常用于比较分区/聚类。但它们在某种意义上可以扩展到真阳性或真阴性的概念。让我们更详细地讨论一下 -
对于一组元素 S={a1,a2....an},我们可以定义两个不同的聚类算法 X 和 Y,分别将它们分成 r 个簇 - X1,X2...Xr 簇和 Y1, Y2 .... Yr 集群。组合所有 X 簇或所有 Y 簇,您将再次获得完整的 S 集。
现在,我们定义:- A= S 中与 X 中的同一集合和 Y 中的同一集合中的元素对的数量 B= S 中位于 X 中不同集合和 Y 中不同集合中的元素对数 C= S 中在 X 中属于同一集合而在 Y 中属于不同集合的元素对数 D= S 中在 X 中不同集合和 Y 中相同集合的元素对数
兰德指数定义为 - R=(A+B)/(A+B+C+D) 现在以这种方式看待事物 - 让 X 是您的诊断测试结果,而 Y 是数据点上的实际标签。因此,A、B、C、D 然后减少为 TP、TN、FP、FN(按此顺序)。基本上,R 简化为我上面给出的定义。
现在,杰卡德索引-
对于两个集合 M,N,Jaccard 索引对于聚类算法 X 和 Y 都忽略了不同集合中的元素,即它忽略了 B,这是真正的否定。
J = (A)/(A+C+D) 简化为 J=(TP)/(TP+FP+FN)。
这就是这两个统计数据根本不同的地方。如果你想了解更多关于这些的信息,这里有一篇很好的论文,还有一个可能对你有用的网站 -
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.6189&rep=rep1&type=pdf
http://clusteval.sdu.dk/313/clustering_quality_measures/542
希望这会有所帮助!
【讨论】: