Rand和Jaccard相似度指数的区别？答案

【问题标题】：Difference between Rand and Jaccard similarity index?Rand和Jaccard相似度指数的区别？
【发布时间】：2013-12-01 15:37:13
【问题描述】：

Rand 和 Jaccard 相似度/验证指数的理论区别是什么？

我对方程不感兴趣，但对它们差异的解释感兴趣。

我知道 Jaccard 索引忽略了真正的否定，但为什么呢？这会产生什么样的影响？

谢谢

【问题讨论】：

【解决方案1】：

我在计算生物学硕士论文中使用了这些，因此希望我能够以对您有所帮助的方式回答这个问题-

较短的版本 -

J=TP/(TP+FP+FN) 而R=(TP+TN)/(TP+TN+FP+FN)

当然，根据定义，Jaccard 忽略了 TN。对于非常大的数据集，TN 的数量可能非常大，我的论文就是这种情况。所以，这个词推动了所有的分析。当我从 rand index 转到 Jaccard Index 时，我忽略了 TN 的贡献，并且能够更好地理解事物。

更长的版本-

Rand 和 Jaccard 指数比通常的响应特征统计（如灵敏度/特异性等）更常用于比较分区/聚类。但它们在某种意义上可以扩展到真阳性或真阴性的概念。让我们更详细地讨论一下 -

对于一组元素 S={a1,a2....an}，我们可以定义两个不同的聚类算法 X 和 Y，分别将它们分成 r 个簇 - X1,X2...Xr 簇和 Y1， Y2 .... Yr 集群。组合所有 X 簇或所有 Y 簇，您将再次获得完整的 S 集。

现在，我们定义：- A= S 中与 X 中的同一集合和 Y 中的同一集合中的元素对的数量 B= S 中位于 X 中不同集合和 Y 中不同集合中的元素对数 C= S 中在 X 中属于同一集合而在 Y 中属于不同集合的元素对数 D= S 中在 X 中不同集合和 Y 中相同集合的元素对数

兰德指数定义为 - R=(A+B)/(A+B+C+D) 现在以这种方式看待事物 - 让 X 是您的诊断测试结果，而 Y 是数据点上的实际标签。因此，A、B、C、D 然后减少为 TP、TN、FP、FN（按此顺序）。基本上，R 简化为我上面给出的定义。

现在，杰卡德索引-

对于两个集合 M,N，Jaccard 索引对于聚类算法 X 和 Y 都忽略了不同集合中的元素，即它忽略了 B，这是真正的否定。

J = (A)/(A+C+D) 简化为 J=(TP)/(TP+FP+FN)。

这就是这两个统计数据根本不同的地方。如果你想了解更多关于这些的信息，这里有一篇很好的论文，还有一个可能对你有用的网站 -

希望这会有所帮助！

【讨论】：