【发布时间】:2017-07-26 14:49:30
【问题描述】:
我开始在 weka 中使用简单的 k-mean 聚类进行聚类
聚类后显示此结果
迭代次数:9
在簇内误差平方和:570.1974952009115
我的问题:
-
误差平方和的数量很大,这是否意味着我的集群数量是错误的?以及如何定义乐观的簇数?
-
如何将数据分成训练集和测试集来评估性能?以及如何知道正确的百分比?
-
如何测量 SSB
【问题讨论】:
标签: java weka data-mining
我开始在 weka 中使用简单的 k-mean 聚类进行聚类
聚类后显示此结果
迭代次数:9
在簇内误差平方和:570.1974952009115
我的问题:
误差平方和的数量很大,这是否意味着我的集群数量是错误的?以及如何定义乐观的簇数?
如何将数据分成训练集和测试集来评估性能?以及如何知道正确的百分比?
如何测量 SSB
【问题讨论】:
标签: java weka data-mining
1.1 在 k-means 中,你决定选择多少个集群。你可能已经知道了。
1.2 在 k-means 中,没有像“函数图的全局最大值”那样的最佳聚类数。您可以根据您的业务问题做出决定。另请参阅“elbow method”了解在实践中很少起作用的半经验程序。
1.3 您的数据中可能存在异常值,这使得 any 聚类操作的平方和变大。无论您选择多少个聚类,离群值总是远离您的聚类中心。
2.1 没有“最佳”百分比分割。
2.2 您可以使用可视化来检查集群中是否有任何重叠。您的观众看到“决策边界”也更容易理解。
3.1 什么是单边带?
【讨论】: