K-Means 聚类的局限性答案

【问题标题】：Limitations of K-Means ClusteringK-Means 聚类的局限性
【发布时间】：2020-10-28 10:14:16
【问题描述】：

我正在阅读西密歇根大学的一份文件，以了解 K-means 聚类算法的局限性。以下是链接：

在第 33 号幻灯片中提到，当集群不同时，K-means 会出现问题

既然我们探索了我们的数据并试图通过 k-means 聚类算法找出我们数据中存在的不同组，那么我们如何事先知道聚类的大小是不同的？如果我们有二维数据，我们可以将其可视化，但是如果数据是 n 维的，如何实现呢？在继续应用 k-means 之前，有什么方法可以检查数据。

此外，对限制的解释是：如果我们有不同大小的集群，k-means 将不会给出理想的集群，因为它试图平均划分集群。但我认为情况并非总是如此。我已经通过 k-means++ 初始化在以下数据集上应用了 k-means

它给了我 4346、23、3 高度不均匀分布的集群我认为在继续之前我缺少一些先决步骤。请帮我解决我的疑惑。谢谢。

【问题讨论】：

【解决方案1】：

这是 k-means 的极限。你的聚类好坏并没有一个确凿的事实。

前置步骤可以是：

你的 k-means 聚类有多好的真正方法并不存在，这里有一个关于如何“测量”它的主题：Clustering Quality Measure

【讨论】：