【发布时间】:2015-11-20 06:08:49
【问题描述】:
determining the number of clusters in a dataset 上的维基百科文章指出,我在使用层次聚类时不需要担心这样的问题。但是,当我尝试使用 scikit-learn 的 agglomerative clustering 时,我发现我必须将集群的数量作为参数“n_clusters”提供给它——没有它我会得到两个集群的硬编码默认值。在这种情况下,我该如何为数据集选择正确数量的集群?维基文章有错吗?
【问题讨论】:
-
好问题。当我遇到类似问题时,我最终使用 scipy 例程进行层次聚类,可视化树,然后“手动”(在查看树之后)设置切割阈值。
标签: machine-learning scikit-learn artificial-intelligence cluster-analysis unsupervised-learning