【发布时间】:2020-10-28 10:14:16
【问题描述】:
我正在阅读西密歇根大学的一份文件,以了解 K-means 聚类算法的局限性。以下是链接:
https://cs.wmich.edu/alfuqaha/summer14/cs6530/lectures/ClusteringAnalysis.pdf
在第 33 号幻灯片中提到,当集群不同时,K-means 会出现问题
- 尺寸
- 密度
- 非球形
既然我们探索了我们的数据并试图通过 k-means 聚类算法找出我们数据中存在的不同组,那么我们如何事先知道聚类的大小是不同的?如果我们有二维数据,我们可以将其可视化,但是如果数据是 n 维的,如何实现呢?在继续应用 k-means 之前,有什么方法可以检查数据。
此外,对限制的解释是:如果我们有不同大小的集群,k-means 将不会给出理想的集群,因为它试图平均划分集群。但我认为情况并非总是如此。我已经通过 k-means++ 初始化在以下数据集上应用了 k-means
https://archive.ics.uci.edu/ml/datasets/online+retail
它给了我 4346、23、3 高度不均匀分布的集群 我认为在继续之前我缺少一些先决步骤。请帮我解决我的疑惑。谢谢。
【问题讨论】:
-
好问题,但更适合交叉验证的 stackexchange stats.stackexchange.com
标签: python machine-learning cluster-analysis k-means unsupervised-learning