【发布时间】:2015-06-15 08:04:09
【问题描述】:
我正在为一个类做一个项目,我从 LIBSVM 获取一些数据并通过 2 种不同的聚类算法运行它。我的 kmeans 生成了 8 个集群,而我的聚合器将它们分组为 3 个集群。
现在,我试图判断我的 kmeans 生成的集群标签是否可用于预测我的凝聚聚类生成的集群标签,例如将集群 #6 中的所有实例从 agg 集群映射到集群 #1。
我的教授建议使用决策树分类器,但我不太确定如何执行此操作。我知道我会将 agg 聚类标签作为类标签,然后将我的数据输入其中并查看它是如何分类的。这就是我的问题所在,我有几个问题:
1) scikit learn 决策树分类器输出什么?它是每个实例可能被分类为的概率列表吗?还是明确分类每个实例?
2) 在我输入我的数据并且每个实例都被分类到 Agg 生成的 3 个集群中的一个之后,我如何进入并从 kmeans 中找出它属于哪个集群?
3) 有没有更好的方法来做到这一点?我们需要做的就是“以定量的方式比较不同方法产生的集群”,所以我们不一定需要使用决策树分类器,但我不确定还有什么好的方法。我已经考虑了兰特和调整后的兰特指数,但这些似乎不是我要找的
非常感谢任何帮助!提前致谢!
【问题讨论】:
标签: python machine-learning scikit-learn cluster-analysis