【发布时间】:2025-12-04 12:55:01
【问题描述】:
我一直在研究评估我的聚类的准确性,兰德指数似乎是文献中非常流行的一种。它是通过对每个集群中的每个项目进行成对比较并根据四个标准为它们分配一个分数来计算的:真阳性、真阴性、假阳性和假阴性或 a、b、c、d。兰德分数是通过将真阳性和真阴性的总和除以所有上述类别的总和来计算的。
我的问题是,为什么 sklearn 需要正确的标签来计算 Rand 指数分数?
【问题讨论】:
-
没有正确的标签,你怎么知道它是假阳性、真阴性还是真阳性?
-
fp tp 和 tp 是使用成对比较确定的。如果一组中的两个项目相同,则 A 加一。同样,如果它们都不同,则它们被视为负数,并从那里确定分数。
标签: python scikit-learn cluster-analysis