K-Means - 为什么最佳聚类数随轮廓分析而变化？答案

【问题标题】：K-Means - Why the optimal number of cluster is varying with Silhouette Analysis?K-Means - 为什么最佳聚类数随轮廓分析而变化？
【发布时间】：2022-01-19 09:06:11
【问题描述】：

我正在使用 K-means 聚类中的轮廓分析，使用在这里找到的代码：

https://medium.com/@cmukesh8688/silhouette-analysis-in-k-means-clustering-cefa9a7ad111

但是，当我运行代码（使用我自己的数据框）时，我得到了不同的结果。在某些情况下，我会得到

集群的最佳数量是 2，而其他集群是 5。谁能解释为什么会发生这种情况？

【问题讨论】：

标签： cluster-analysis k-means silhouette

【解决方案1】：

KMeans 算法在执行梯度下降之前开始设置随机聚类中心。

由于算法的随机性，您的数据可能不太适合使用它。

尝试在每次迭代时将随机状态设置为 0 来执行分析，例如：

km = KMeans(n_clusters=k, random_state=0)

这会导致相同的最优吗？

【讨论】：