【发布时间】:2019-05-04 22:52:42
【问题描述】:
在没有标签且不知道所需集群数量的情况下对数据集进行聚类的最佳方法是什么?
例如,使用没有标签或不知道标签类别数量的 Iris 数据集。
我的想法:
- 计算样本与每个现有聚类的均方距离
- *如果均方距离 > 某个阈值乘以取决于(惩罚)k 的因子,则添加一个“新”候选。
- *如果添加了新集群,则找到新的“最佳”k+1 个集群中心
- 如果没有添加新集群,请转到下一行
【问题讨论】:
标签: cluster-analysis k-means unsupervised-learning