【问题标题】:how to evaluate my cluster algorithm如何评估我的聚类算法
【发布时间】:2017-07-26 14:49:30
【问题描述】:

我开始在 weka 中使用简单的 k-mean 聚类进行聚类

聚类后显示此结果

迭代次数:9

在簇内误差平方和:570.1974952009115

我的问题:

  1. 误差平方和的数量很大,这是否意味着我的集群数量是错误的?以及如何定义乐观的簇数?

  2. 如何将数据分成训练集和测试集来评估性能?以及如何知道正确的百分比?

  3. 如何测量 SSB

【问题讨论】:

    标签: java weka data-mining


    【解决方案1】:

    1.1 在 k-means 中,决定选择多少个集群。你可能已经知道了。

    1.2 在 k-means 中,没有像“函数图的全局最大值”那样的最佳聚类数。您可以根据您的业务问题做出决定。另请参阅“elbow method”了解在实践中很少起作用的半经验程序。

    1.3 您的数据中可能存在异常值,这使得 any 聚类操作的平方和变大。无论您选择多少个聚类,离群值总是远离您的聚类中心。

    2.1 没有“最佳”百分比分割。

    2.2 您可以使用可视化来检查集群中是否有任何重叠。您的观众看到“决策边界”也更容易理解。

    3.1 什么是单边带?

    【讨论】:

    • 我听说过(尽可能多地运行 k-means,每次都更改种子。记录为您提供最小平方误差和的解决方案。)你能帮忙吗我如何在 k-mean 中做种子方法如果有可用的代码你可以帮助我 ** 你能帮我解释这个主题的资源吗 对不起,我的意思是 SSE 是它的值(在平方和的簇内错误)或不同
    猜你喜欢
    • 2021-05-13
    • 2012-02-24
    • 2017-06-08
    • 2011-02-25
    • 2018-06-07
    • 2018-10-14
    • 1970-01-01
    • 2015-07-29
    • 2015-03-06
    相关资源
    最近更新 更多