【发布时间】:2016-07-26 16:39:47
【问题描述】:
根据此发布的页面 BCubed 精度和召回率,因此 F1-Measure 计算是评估聚类性能的最佳技术。见Amigó, Enrique, et al. "A comparison of extrinsic clustering evaluation metrics based on formal constraints." Information retrieval 12.4 (2009): 461-486.
它显示了如下图所示的 BCubed 计算
据我所知,我们计算每个项目的精度和召回率,然后取它们的总和的平均值?
但是我的理解与他们给出的评价不符,如下图所示
根据上图集群同质性示例 - 左侧,我计算 BCubed 的精度如下但不匹配
black : 4/4
gray: 4/7
Other three each one : 1/7
so average precision is : (4/4 + 4/6 + 1/7 + 1/7 + 1/7) / 5
但这与他们在图像中的结果不匹配,即0.59
一个项目的BCubed精度是其集群中项目的比例 具有项目的类别(包括其本身)。整体 BCubed 精度是分布中所有项目的平均精度。 由于平均值是针对项目计算的,因此无需 根据集群或类别的大小应用任何权重。 BCubed 召回是类似的,将“cluster”替换为“category”。
【问题讨论】:
标签: machine-learning cluster-analysis data-mining precision-recall