【发布时间】:2017-05-11 15:20:18
【问题描述】:
我在 python 中使用来自 sklearn 的 KMeans 和 silhouette_score 来计算我的集群,但是在 >10.000 个样本和 >1000 个集群上计算剪影分数非常慢。
- 是否有更快的方法来确定最佳集群数?
- 或者我应该更改聚类算法吗?如果是,对于具有 >300.000 个样本和大量集群的数据集,哪种算法是最好的(也是最快的)?
【问题讨论】:
标签: python scikit-learn cluster-analysis data-mining bigdata