【问题标题】:Limitations of K-Means ClusteringK-Means 聚类的局限性
【发布时间】:2020-10-28 10:14:16
【问题描述】:

我正在阅读西密歇根大学的一份文件,以了解 K-means 聚类算法的局限性。以下是链接:

https://cs.wmich.edu/alfuqaha/summer14/cs6530/lectures/ClusteringAnalysis.pdf

在第 33 号幻灯片中提到,当集群不同时,K-means 会出现问题

  • 尺寸
  • 密度
  • 非球形

既然我们探索了我们的数据并试图通过 k-means 聚类算法找出我们数据中存在的不同组,那么我们如何事先知道聚类的大小是不同的?如果我们有二维数据,我们可以将其可视化,但是如果数据是 n 维的,如何实现呢?在继续应用 k-means 之前,有什么方法可以检查数据。

此外,对限制的解释是:如果我们有不同大小的集群,k-means 将不会给出理想的集群,因为它试图平均划分集群。但我认为情况并非总是如此。我已经通过 k-means++ 初始化在以下数据集上应用了 k-means

https://archive.ics.uci.edu/ml/datasets/online+retail

它给了我 4346、23、3 高度不均匀分布的集群 我认为在继续之前我缺少一些先决步骤。请帮我解决我的疑惑。谢谢。

【问题讨论】:

标签: python machine-learning cluster-analysis k-means unsupervised-learning


【解决方案1】:

这是 k-means 的极限。你的聚类好坏并没有一个确凿的事实。

前置步骤可以是:

  • 使用StandardScaler 对数据进行标准化/标准化
  • 缺失值处理
  • 降维(有多种技术,例如:PCA),尤其是当您有很多维度时
  • 随机初始化(可能与起点不同)

你的 k-means 聚类有多好的真正方法并不存在,这里有一个关于如何“测量”它的主题:Clustering Quality Measure

【讨论】:

    猜你喜欢
    • 2015-04-11
    • 2014-02-11
    • 2011-08-13
    • 2013-08-08
    • 2013-02-14
    • 2018-01-14
    • 2017-10-02
    • 2011-04-11
    • 2016-12-16
    相关资源
    最近更新 更多