【问题标题】:clustering evaluation, taking into account the number of cluster聚类评估,考虑聚类的数量
【发布时间】:2018-10-14 08:27:43
【问题描述】:

我知道如何计算集群的 Recall、Precision 和 F_measure,如本课程中所述https://www.coursera.org/learn/cluster-analysis/lecture/BcYhV/6-4-external-measures-1-matching-based-measures

但是,如果我的系统生成的集群数量多于 ground-truth 中的集群数量,我们如何计算这些度量?

似乎对生成更多集群的系统没有任何惩罚,因为我们只是将 ground-truth 中的每个集群与我的系统生成的最佳集群进行匹配。我在这里错过了什么吗?

【问题讨论】:

    标签: cluster-analysis data-mining


    【解决方案1】:

    不要像分类那样计算它们!!!

    您要么需要处理点对 - 这是最常见的方法,被非常流行的 ARI 测量所使用。

    或者您需要找到具有最大重叠的集群,这有​​时称为“匹配”。我不相信这种方法。

    最后但同样重要的是,您可以使用匈牙利算法找到最佳的部分 1:1 对应关系,并认为不匹配的集群都是错误的。

    【讨论】:

    • 谢谢。这就是我正在做的匹配措施。我找到了具有最大重叠的集群并计算了召回率和精度。但这并没有考虑到当真实集群是(假设是七个集群)时,我的系统是生成十个还是十五个集群。这就是我的问题,评估中不考虑生成的簇数!!
    • ... 这就是不赞成匹配方法的原因。使用对。
    猜你喜欢
    • 2017-06-08
    • 2015-07-29
    • 2012-02-24
    • 2018-06-07
    • 2015-03-06
    • 2014-03-24
    • 2017-07-26
    • 2018-09-10
    • 2018-05-13
    相关资源
    最近更新 更多