【发布时间】:2017-05-24 12:46:00
【问题描述】:
我想使用 python 中 scikit 包中的 calinski 和 harabasz 验证自动选择 k(k-means 聚类)(metrics.calinski_harabaz_score)。
我循环遍历所有聚类范围以选择 calinski_harabaz_score 的最大值
for kClusterCnt in range(2, 21) :
value = metrics.calinski_harabaz_score(datasets.data, kmCls.labels_)
我只使用那个方法有什么缺陷或错误吗?
【问题讨论】:
-
您也可以掷骰子选择k。不要依赖这些措施,始终手动验证您的集群。
-
感谢您的回复。我知道我必须用平方和和其他方法来查看聚类数。但是我需要制作一个程序来自动选择 K 并在没有人为决定的情况下运行聚类。所以我写了这些问题来获得一些建议。
-
不,也不要不依赖平方和!自动聚类是矛盾的。
标签: python scikit-learn cluster-analysis k-means