【问题标题】:How to assess the efficiency of unsupervised algorithms? How does pam algorithm work?如何评估无监督算法的效率? pam算法是如何工作的?
【发布时间】:2026-01-03 14:25:01
【问题描述】:

我正在使用 k-means 和 K-medoids。使用 K-means 执行会出现以下信息:

Within cluster sum of squares by cluster:
[1] 12636160  7631152 10226254
(between_SS / total_SS =  79.2 %)

between_SS/total_SS 是表示算法总体吞吐量的比率吗?

和 pam:

Objective function:
build     swap 
211.6604 210.5670 

您如何解释这些结果?

【问题讨论】:

    标签: r algorithm


    【解决方案1】:

    如果你所说的“吞吐量”和“效率”是什么意思 关于处理速度,然后没有。这些都是措施 聚类算法在发现方面的成功程度 一个好的分组(或者也许这些点可以如何分组)。

    k 均值
    between_SS(簇间平方和)的含义和 total_SS(总平方和)在前面已经解释过了 Cross Validated 问题及其答案。 between_SS 与 total_SS 的比值 是对点聚集程度的某种度量。

    PAM
    来自?pam帮助页面

    算法首先寻找一组好的初始中心点 (这称为构建阶段)。然后它找到一个局部最小值 对于目标函数,即有一个解 不是单一的观察与中心点的切换,将 减少目标(这称为交换阶段)。

    列出的值是目标函数的值 (点到它们的中心点的距离之和)在两个阶段。 同样,这是衡量点聚集程度的指标。

    更多详情请看pam帮助页面?pam,
    pam.object 帮助页面?pam.object,
    Wikipedia Page 在 k-medoids 上或
    原始论文 Kaufman, L. 和 Rousseeuw, P.J. (1987), 通过中心点聚类

    【讨论】:

    • 谢谢,请问有什么方法可以提高算法性能吗?当我将其与原始数据进行比较时,会出现一些错误。估计不是很准确,因此在这种情况下按集群分类并不能提供很好的解决方案。
    • 聚类分类很少(可能永远不会)是个好主意。如果您的原始数据中有类,为什么不使用众多监督分类算法中的一种呢?我建议你看看这个描述差异的Previous Post