【发布时间】:2012-07-23 09:11:51
【问题描述】:
我一直在使用 Mahout 对使用 XML 和 SOLR 索引输入的文本文档进行 k-means 聚类。
聚类似乎有效,并且确实将类似的文档放入同一个 k-means 聚类中,这很棒。
但是,每当我使用 ClusterDump (--outputFormat GRAPH_ML) 显示 graphml 输出时,我都会得到一个显示所有集群的图,但每个元素都显示在其父集群的圆周周围,这意味着每个元素的半径大致相同质心。
我预计元素会根据它们彼此的相似性分散在整个集群中(如 Mahout 示例中所示)。
有没有人看到他们的 Mahout k-means 集群有类似的东西?我自己试图弄清楚这一点,但任何提示或建议都会有很大的帮助。
非常感谢,
莫里斯
【问题讨论】:
标签: cluster-computing visualization mahout k-means