如何在 K 中优化 K - 均值算法答案

【问题标题】：How to optimal K in K - Means Algorithm [duplicate]如何在 K 中优化 K - 均值算法
【发布时间】：2011-09-06 22:45:27
【问题描述】：

可能重复：
How do I determine k when using k-means clustering?

如果我不了解数据，我如何最初选择 K？

谁能帮我选K。

谢谢纳文

【问题讨论】：

重要的是要认识到没有一种完全原则性的集群方式。通常，您必须隐式指定密度。对于 k-means，您通过簇数指定密度。对于均值偏移，您必须选择邻域大小。即使您使用某些标准来选择集群数量或邻域大小，您仍然选择使用该方法。
通过查看clustering 标签，您可能会在CrossValidated 上找到一些有用的线索。
完全重复@stackoverflow.com/q/1793532/353278 && stackoverflow.com/q/5933970/353278
我在这里用六种方法（使用R）回答了一个类似的问题：stackoverflow.com/a/15376462/1036500

标签： data-mining k-means

【解决方案1】：

基本思想是评估样本数据上的聚类评分，通常是聚类内的距离和聚类之间的距离。此度量越多，聚类效果越好，基于此度量，您可以选择最佳聚类参数。可以在此处找到其中一项指标http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html

【讨论】：

【解决方案2】：

说真的，你想知道什么？你想让我们告诉你一些数字吗？或者如何找到最优k的策略？您必须阅读有关 k-means 的书或其他资源，我很确定它已包含在其中。

维基百科上有关于它的内容：

http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

在使用算法之前，请阅读它。

【讨论】：