【问题标题】:K-Means - Why the optimal number of cluster is varying with Silhouette Analysis?K-Means - 为什么最佳聚类数随轮廓分析而变化?
【发布时间】:2022-01-19 09:06:11
【问题描述】:

我正在使用 K-means 聚类中的轮廓分析,使用在这里找到的代码:

https://medium.com/@cmukesh8688/silhouette-analysis-in-k-means-clustering-cefa9a7ad111

但是,当我运行代码(使用我自己的数据框)时,我得到了不同的结果。在某些情况下,我会得到

集群的最佳数量是 2,而其他集群是 5。谁能解释为什么会发生这种情况?

【问题讨论】:

    标签: cluster-analysis k-means silhouette


    【解决方案1】:

    KMeans 算法在执行梯度下降之前开始设置随机聚类中心。

    由于算法的随机性,您的数据可能不太适合使用它。

    尝试在每次迭代时将随机状态设置为 0 来执行分析,例如:

    km = KMeans(n_clusters=k, random_state=0)
    

    这会导致相同的最优吗?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-11-20
      • 2018-12-10
      • 2012-07-22
      • 2019-09-17
      • 2020-10-08
      • 2018-01-21
      • 2018-02-27
      • 2014-06-04
      相关资源
      最近更新 更多