改进 k-means 聚类答案

【问题标题】：Improving k-means clustering改进 k-means 聚类
【发布时间】：2011-06-06 14:12:14
【问题描述】：

我关于计算机视觉的讲义提到，如果我们知道集群的标准差，可以提高 k-means 聚类算法的性能。为何如此？

我的想法是，我们可以首先通过基于直方图的分割来使用标准偏差来提出更好的初始估计。你怎么看？感谢您的帮助！

【问题讨论】：

【解决方案1】：

您的讲师可能会想到2002 paper by Veenman et al。基本思想是您设置每个集群中允许的最大方差。您从与数据点一样多的集群开始，然后通过

“进化”集群

（这种演变充当全局优化过程，并防止初始分配集群意味着您在 k-means 中的不良后果）

总而言之，如果你知道方差，你就知道集群应该有多大的变化，所以更容易例如检测异常值（通常应将其放入单独的集群中）。

【讨论】：