选择 k 中的聚类值均值算法答案

【问题标题】：Choosing the cluster values in k means algorithm选择 k 中的聚类值均值算法
【发布时间】：2014-09-16 10:46:00
【问题描述】：

我正在编写一个 k 均值算法，该算法采用一个 double[][] 来存储位置并返回两个位置集群。

我有一个非常简单的问题：选择初始集群值的最佳方法是什么？

我已经尝试随机化这些值，但这并不总是很好，而且我在网上找不到这个问题的任何好的答案。任何帮助深表感谢。

【问题讨论】：

除非您绝对必须使用标准的 k-means 算法，否则您可以查找 k-harmonic mean 算法。它使用了不同的性能函数，这应该使它对初始聚类中心的选择不那么敏感。

【解决方案1】：

一种通常比随机选择更有效的流行策略是随机选择第一个值，然后通过找到离第一个选择最远的数据点来选择第二个值。

然后，下一个值将被选择为距前两个值最远的值，依此类推。

这类似于稍微复杂一点的初始化算法K-means++。

【讨论】：