如何评估无监督算法的效率？ pam算法是如何工作的？答案

【问题标题】：How to assess the efficiency of unsupervised algorithms? How does pam algorithm work?如何评估无监督算法的效率？ pam算法是如何工作的？
【发布时间】：2026-01-03 14:25:01
【问题描述】：

我正在使用 k-means 和 K-medoids。使用 K-means 执行会出现以下信息：

Within cluster sum of squares by cluster:
[1] 12636160  7631152 10226254
(between_SS / total_SS =  79.2 %)

between_SS/total_SS 是表示算法总体吞吐量的比率吗？

和 pam：

Objective function:
build     swap 
211.6604 210.5670

您如何解释这些结果？

【问题讨论】：

标签： r algorithm

【解决方案1】：

如果你所说的“吞吐量”和“效率”是什么意思关于处理速度，然后没有。这些都是措施聚类算法在发现方面的成功程度一个好的分组（或者也许这些点可以如何分组）。

k 均值
between_SS（簇间平方和）的含义和 total_SS（总平方和）在前面已经解释过了 Cross Validated 问题及其答案。 between_SS 与 total_SS 的比值是对点聚集程度的某种度量。

PAM
来自?pam帮助页面

算法首先寻找一组好的初始中心点（这称为构建阶段）。然后它找到一个局部最小值对于目标函数，即有一个解不是单一的观察与中心点的切换，将减少目标（这称为交换阶段）。

列出的值是目标函数的值（点到它们的中心点的距离之和）在两个阶段。同样，这是衡量点聚集程度的指标。

更多详情请看pam帮助页面?pam,
pam.object 帮助页面?pam.object,
Wikipedia Page 在 k-medoids 上或
原始论文 Kaufman, L. 和 Rousseeuw, P.J. (1987), 通过中心点聚类

【讨论】：

谢谢，请问有什么方法可以提高算法性能吗？当我将其与原始数据进行比较时，会出现一些错误。估计不是很准确，因此在这种情况下按集群分类并不能提供很好的解决方案。
聚类分类很少（可能永远不会）是个好主意。如果您的原始数据中有类，为什么不使用众多监督分类算法中的一种呢？我建议你看看这个描述差异的Previous Post。