【发布时间】:2013-07-27 16:24:50
【问题描述】:
我想对以下数据(样本)进行聚类分析:
ID CODE1 CODE2 CODE3 CODE4 CODE5 CODE6
------------------------------------------------------------------
00001 0 1 1 0 0 0
00002 1 0 0 0 1 1
00003 0 1 0 1 1 1
00004 1 1 1 0 1 0
...
其中 1 表示存在该人的代码,0 表示不存在.. k-means 或层次聚类最适合对此类数据的代码进行聚类(对于大约一百万个不同的 id),以及使用哪种距离度量?如果这两种方法都不合适,您认为哪种方法最合适?
谢谢
【问题讨论】:
标签: python binary cluster-analysis k-means hierarchical