【问题标题】:How to optimal K in K - Means Algorithm [duplicate]如何在 K 中优化 K - 均值算法
【发布时间】:2011-09-06 22:45:27
【问题描述】:

可能重复:
How do I determine k when using k-means clustering?

如果我不了解数据,我如何最初选择 K?

谁能帮我选K。

谢谢 纳文

【问题讨论】:

  • 重要的是要认识到没有一种完全原则性的集群方式。通常,您必须隐式指定密度。对于 k-means,您通过簇数指定密度。对于均值偏移,您必须选择邻域大小。即使您使用某些标准来选择集群数量或邻域大小,您仍然选择使用该方法。
  • 通过查看clustering 标签,您可能会在CrossValidated 上找到一些有用的线索。
  • 我在这里用六种方法(使用R)回答了一个类似的问题:stackoverflow.com/a/15376462/1036500

标签: data-mining k-means


【解决方案1】:

基本思想是评估样本数据上的聚类评分,通常是聚类内的距离和聚类之间的距离。此度量越多,聚类效果越好,基于此度量,您可以选择最佳聚类参数。可以在此处找到其中一项指标http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html

【讨论】:

    【解决方案2】:

    说真的,你想知道什么?你想让我们告诉你一些数字吗?或者如何找到最优k的策略?您必须阅读有关 k-means 的书或其他资源,我很确定它已包含在其中。

    维基百科上有关于它的内容:

    http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

    在使用算法之前,请阅读它。

    【讨论】:

      猜你喜欢
      • 2017-06-08
      • 1970-01-01
      • 2013-10-10
      • 2021-04-24
      • 2013-11-26
      • 2014-04-25
      • 2014-09-16
      相关资源
      最近更新 更多