simplekmeans 聚类上的聚类质心答案

【问题标题】：Cluster centroids on simplekmeans clusteringsimplekmeans 聚类上的聚类质心
【发布时间】：2015-07-22 01:29:37
【问题描述】：

我目前正在尝试解释从 Diabetes.arff 数据集上运行 SimpleKMeans 聚类收集的一组结果。

http://i.stack.imgur.com/T4eho.jpg - 链接到集群实例（图 1）

到目前为止，我可以理解集群实例（图 1）显示 500 个变量已被归类为测试阴性，268 个变量已被归类为测试阳性。

当将这些值与 groundtruth 值进行比较时，没有太大差异，因为正确的聚类应该表明 500 个被归类为测试阴性，268 个被归类为测试阳性。这在技术上意味着 SimpleKMeans 聚类方法适合此数据集，因为它已正确分类实例。

但我不知道如何解释集群质心表中的信息，在完整数据、集群 #0 和集群 1 标题下。他们告诉我们关于数据集的什么信息（图 1）？

【问题讨论】：

【解决方案1】：

您应该在进行聚类之前删除类属性。它具有太多的预测能力，因此，聚类算法在内部具有强烈的偏好类属性的倾向。

您可以通过单击“删除”按钮在“预处理”面板中删除此属性，或者在“集群”面板中单击“忽略属性”，然后选择“类”属性。

然后再次集群。我建议从 k = 2 开始，这是“类”属性的唯一值的数量。（然后检查集群分配是否与原始属性对应，或者做其他事情。）

顺便说一句，在我看来，您不是在研究“玻璃”数据集，而是在研究“糖尿病”数据集。

【讨论】：