【问题标题】:Difference between Rand and Jaccard similarity index?Rand和Jaccard相似度指数的区别?
【发布时间】:2013-12-01 15:37:13
【问题描述】:

Rand 和 Jaccard 相似度/验证指数的理论区别是什么?

我对方程不感兴趣,但对它们差异的解释感兴趣。

我知道 Jaccard 索引忽略了真正的否定,但为什么呢?这会产生什么样的影响?

谢谢

【问题讨论】:

    标签: validation statistics probability similarity


    【解决方案1】:

    我在计算生物学硕士论文中使用了这些,因此希望我能够以对您有所帮助的方式回答这个问题-

    较短的版本 -

    J=TP/(TP+FP+FN) 而R=(TP+TN)/(TP+TN+FP+FN)

    当然,根据定义,Jaccard 忽略了 TN。对于非常大的数据集,TN 的数量可能非常大,我的论文就是这种情况。所以,这个词推动了所有的分析。当我从 rand index 转到 Jaccard Index 时,我忽略了 TN 的贡献,并且能够更好地理解事物。

    更长的版本-

    Rand 和 Jaccard 指数比通常的响应特征统计(如灵敏度/特异性等)更常用于比较分区/聚类。但它们在某种意义上可以扩展到真阳性或真阴性的概念。让我们更详细地讨论一下 -

    对于一组元素 S={a1,a2....an},我们可以定义两个不同的聚类算法 X 和 Y,分别将它们分成 r 个簇 - X1,X2...Xr 簇和 Y1, Y2 .... Yr 集群。组合所有 X 簇或所有 Y 簇,您将再次获得完整的 S 集。

    现在,我们定义:- A= S 中与 X 中的同一集合和 Y 中的同一集合中的元素对的数量 B= S 中位于 X 中不同集合和 Y 中不同集合中的元素对数 C= S 中在 X 中属于同一集合而在 Y 中属于不同集合的元素对数 D= S 中在 X 中不同集合和 Y 中相同集合的元素对数

    兰德指数定义为 - R=(A+B)/(A+B+C+D) 现在以这种方式看待事物 - 让 X 是您的诊断测试结果,而 Y 是数据点上的实际标签。因此,A、B、C、D 然后减少为 TP、TN、FP、FN(按此顺序)。基本上,R 简化为我上面给出的定义。

    现在,杰卡德索引-

    对于两个集合 M,N,Jaccard 索引对于聚类算法 X 和 Y 都忽略了不同集合中的元素,即它忽略了 B,这是真正的否定。

    J = (A)/(A+C+D) 简化为 J=(TP)/(TP+FP+FN)。

    这就是这两个统计数据根本不同的地方。如果你想了解更多关于这些的信息,这里有一篇很好的论文,还有一个可能对你有用的网站 -

    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.6189&rep=rep1&type=pdf

    http://clusteval.sdu.dk/313/clustering_quality_measures/542

    希望这会有所帮助!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-01-02
      • 2022-01-04
      • 2021-09-01
      • 2022-07-21
      • 2017-03-27
      • 1970-01-01
      • 1970-01-01
      • 2015-04-29
      相关资源
      最近更新 更多