聚类评估，考虑聚类的数量

【问题标题】：clustering evaluation, taking into account the number of cluster聚类评估，考虑聚类的数量
【发布时间】：2018-10-14 08:27:43
【问题描述】：

但是，如果我的系统生成的集群数量多于 ground-truth 中的集群数量，我们如何计算这些度量？

似乎对生成更多集群的系统没有任何惩罚，因为我们只是将 ground-truth 中的每个集群与我的系统生成的最佳集群进行匹配。我在这里错过了什么吗？

【问题讨论】：

【解决方案1】：

不要像分类那样计算它们！！！

您要么需要处理点对 - 这是最常见的方法，被非常流行的 ARI 测量所使用。

或者您需要找到具有最大重叠的集群，这有时称为“匹配”。我不相信这种方法。

最后但同样重要的是，您可以使用匈牙利算法找到最佳的部分 1:1 对应关系，并认为不匹配的集群都是错误的。

【讨论】：

谢谢。这就是我正在做的匹配措施。我找到了具有最大重叠的集群并计算了召回率和精度。但这并没有考虑到当真实集群是（假设是七个集群）时，我的系统是生成十个还是十五个集群。这就是我的问题，评估中不考虑生成的簇数！！
... 这就是不赞成匹配方法的原因。使用对。