【问题标题】:How to calculate BCubed precision and recall如何计算 BCubed 精度和召回率
【发布时间】:2016-07-26 16:39:47
【问题描述】:

根据此发布的页面 BCubed 精度和召回率,因此 F1-Measure 计算是评估聚类性能的最佳技术。见Amigó, Enrique, et al. "A comparison of extrinsic clustering evaluation metrics based on formal constraints." Information retrieval 12.4 (2009): 461-486.

它显示了如下图所示的 BCubed 计算

据我所知,我们计算每个项目的精度和召回率,然后取它们的总和的平均值?

但是我的理解与他们给出的评价不符,如下图所示

根据上图集群同质性示例 - 左侧,我计算 BCubed 的精度如下但不匹配

black : 4/4
gray: 4/7
Other three each one : 1/7

so average precision is : (4/4 + 4/6 + 1/7 + 1/7 + 1/7) / 5

但这与他们在图像中的结果不匹配,即0.59

一个项目的BCubed精度是其集群中项目的比例 具有项目的类别(包括其本身)。整体 BCubed 精度是分布中所有项目的平均精度。 由于平均值是针对项目计算的,因此无需 根据集群或类别的大小应用任何权重。 BCubed 召回是类似的,将“cluster”替换为“category”。

【问题讨论】:

    标签: machine-learning cluster-analysis data-mining precision-recall


    【解决方案1】:

    有 14 个项目,而不是 5 个。

    (4*4/4+1/3+2*2/3+3*1/7+4*4/7)/14 = 0.5986394557823128
    

    但这些只是玩具示例。我更喜欢调整后的兰德指数而不是 BCubed,它的知名度和接受度要广得多。

    【讨论】:

    • 好的,我现在明白了。在 BCubed 上的调整后的兰德指数在哪里被接受?从发表的文章中,我看到人们使用平均 F1 度量,这是基于集合匹配的度量,我想我不正确吗?
    • 这里定义的f测度是文献中最常用的一种:citeseerx.ist.psu.edu/viewdoc/…
    猜你喜欢
    • 2014-11-20
    • 2012-11-26
    • 1970-01-01
    • 2017-08-21
    • 2020-02-23
    • 2017-11-13
    • 2010-10-14
    • 2019-12-14
    • 2015-12-05
    相关资源
    最近更新 更多