【问题标题】:Cluster centroids on simplekmeans clusteringsimplekmeans 聚类上的聚类质心
【发布时间】:2015-07-22 01:29:37
【问题描述】:

我目前正在尝试解释从 Diabetes.arff 数据集上运行 SimpleKMeans 聚类收集的一组结果。

http://i.stack.imgur.com/T4eho.jpg - 链接到集群实例(图 1)

到目前为止,我可以理解集群实例(图 1)显示 500 个变量已被归类为测试阴性,268 个变量已被归类为测试阳性。

http://i.stack.imgur.com/X9szt.jpg - 链接到真实值(图 2)

当将这些值与 groundtruth 值进行比较时,没有太大差异,因为正确的聚类应该表明 500 个被归类为测试阴性,268 个被归类为测试阳性。这在技术上意味着 SimpleKMeans 聚类方法适合此数据集,因为它已正确分类实例。

但我不知道如何解释集群质心表中的信息,在完整数据、集群 #0 和集群 1 标题下。他们告诉我们关于数据集的什么信息(图 1)?

【问题讨论】:

    标签: machine-learning cluster-analysis weka


    【解决方案1】:

    您应该在进行聚类之前删除类属性。它具有太多的预测能力,因此,聚类算法在内部具有强烈的偏好类属性的倾向。

    您可以通过单击“删除”按钮在“预处理”面板中删除此属性,或者在“集群”面板中单击“忽略属性”,然后选择“类”属性。

    然后再次集群。我建议从 k = 2 开始,这是“类”属性的唯一值的数量。 (然后检查集群分配是否与原始属性对应,或者做其他事情。)

    顺便说一句,在我看来,您不是在研究“玻璃”数据集,而是在研究“糖尿病”数据集。

    【讨论】:

      猜你喜欢
      • 2020-02-21
      • 2017-09-12
      • 2014-04-02
      • 2016-12-02
      • 1970-01-01
      • 2020-09-10
      • 2023-04-03
      • 2018-08-12
      • 2016-05-29
      相关资源
      最近更新 更多