【问题标题】:Understanding the quality of the KMeans algorithm了解 KMeans 算法的质量
【发布时间】:2017-01-07 11:33:26
【问题描述】:

阅读Unbalanced factor of KMeans 后,我试图了解它是如何工作的。我的意思是,从我的例子中,我可以看到因子的值越小,KMeans 聚类的质量就越好,即它的聚类越平衡。但是这个因素的赤裸裸的数学解释是什么?这是一个已知的数量还是什么?


这是我的例子:

C1 = 10
C2 = 100

pdd = [(C1,10), (C2, 100)]
n = 2        <-- #clusters
total = 110  <-- #points
uf = 10 * 10 + 100 * 100
uf = 100100 * 2 / 12100 = 16.5

C1 = 50
C2 = 60

pdd = [(C1, 50), (C2, 60)]
n = 2        
total = 110  
uf = 2500 + 3600
uf = 6100 * 2 / 12100 = 1.008

C1 = 1
C2 = 1

pdd = [(C1, 1), (C2, 1)]
n = 2       
total = 2
uf = 2
uf = 2 * 2 / 2 * 2 = 1

【问题讨论】:

    标签: math apache-spark machine-learning k-means data-science


    【解决方案1】:

    它似乎与基尼指数有关,这是一种熵的度量,它也使用平方和。

    Cross Validated: Understanding the quality of the KMeans algorithm中所说。

    【讨论】:

      猜你喜欢
      • 2021-06-13
      • 2012-02-05
      • 1970-01-01
      • 2013-07-06
      • 1970-01-01
      • 2014-10-29
      • 2015-01-20
      • 2013-07-06
      • 2013-07-01
      相关资源
      最近更新 更多