【问题标题】:WEKA K-Means ClusteringWEKA K-Means 聚类
【发布时间】:2011-08-13 02:11:21
【问题描述】:

谁能解释一下 WEKA 中 K-Means 聚类的输出究竟意味着什么。

例如

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0  

列中的数字实际上是什么意思,它表示表格上方的聚类质心,但是如何确定两个聚类的质心是什么?

如果有人能解释这些数字的含义,我将不胜感激。

如果有人对如何完成对发现的集群的轮廓评估有任何想法,那也很棒。

谢谢

【问题讨论】:

    标签: cluster-analysis data-mining weka k-means


    【解决方案1】:

    第一列为您提供总体人口中心。第二列和第三列分别为您提供集群 0 和 1 的质心。每行给出特定维度的质心坐标。

    我认为您需要更新您的K-means。寻找质心是算法的重要组成部分。质心是算法特定运行的结果,并且不是唯一的 - 不同的运行可能会生成不同的质心集。

    详情请见Michael Abernethy's description of Weka clustering

    【讨论】:

      【解决方案2】:

      只是第一步,

      1. 将可视化选项卡中的绘图保存为 arff 文件。

      2. 用weka打开,点击edit,你会自动看到每个实例属于哪个集群。

      3. 将此表复制到 Excel 中(以便更轻松地可视化)

      4. 使用excel或matlab查找轮廓、凝聚力、分离度等经典方法。

      【讨论】:

      • 我试过了,但我只能看到数据而看不到簇号?
      • 这项工作!!无需应用过滤器。只需将 weka 集群可视化窗格中的文件保存为 arff 文件并在 weka 中打开。创建了一个名为“cluster”的新属性。
      【解决方案3】:

      首先聚类是一种描述性统计方法。 二、算法Kmeans需要事先输入簇数,找到最优的簇数,几种统计方法。 第三,数值数据的质心是构成聚类的数据的算术平均值。所以这些数据代表了组数据。

      【讨论】:

        【解决方案4】:

        如果属性是名义属性,则使用集群中属性最频繁的值。 如果属性是数字,则使用集群中属性的平均值。 更多详情请查看this link

        【讨论】:

          猜你喜欢
          • 2011-10-04
          • 2012-11-08
          • 2015-04-11
          • 2013-08-08
          • 2013-02-14
          • 2018-01-14
          • 2011-04-11
          • 2016-12-16
          • 2011-06-06
          相关资源
          最近更新 更多