WEKA K-Means 聚类答案

【问题标题】：WEKA K-Means ClusteringWEKA K-Means 聚类
【发布时间】：2011-08-13 02:11:21
【问题描述】：

谁能解释一下 WEKA 中 K-Means 聚类的输出究竟意味着什么。

例如

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0

列中的数字实际上是什么意思，它表示表格上方的聚类质心，但是如何确定两个聚类的质心是什么？

如果有人能解释这些数字的含义，我将不胜感激。

如果有人对如何完成对发现的集群的轮廓评估有任何想法，那也很棒。

谢谢

【问题讨论】：

标签： cluster-analysis data-mining weka k-means

【解决方案1】：

第一列为您提供总体人口中心。第二列和第三列分别为您提供集群 0 和 1 的质心。每行给出特定维度的质心坐标。

我认为您需要更新您的K-means。寻找质心是算法的重要组成部分。质心是算法特定运行的结果，并且不是唯一的 - 不同的运行可能会生成不同的质心集。

详情请见Michael Abernethy's description of Weka clustering。

【讨论】：

【解决方案2】：

只是第一步，

将可视化选项卡中的绘图保存为 arff 文件。
用weka打开，点击edit，你会自动看到每个实例属于哪个集群。
将此表复制到 Excel 中（以便更轻松地可视化）
使用excel或matlab查找轮廓、凝聚力、分离度等经典方法。

【讨论】：

我试过了，但我只能看到数据而看不到簇号？
这项工作！！无需应用过滤器。只需将 weka 集群可视化窗格中的文件保存为 arff 文件并在 weka 中打开。创建了一个名为“cluster”的新属性。

【解决方案3】：

首先聚类是一种描述性统计方法。二、算法Kmeans需要事先输入簇数，找到最优的簇数，几种统计方法。第三，数值数据的质心是构成聚类的数据的算术平均值。所以这些数据代表了组数据。

【讨论】：

【解决方案4】：

如果属性是名义属性，则使用集群中属性最频繁的值。如果属性是数字，则使用集群中属性的平均值。更多详情请查看this link。

【讨论】：