Mahout ClusterDump - 显示 graphml 输出时的奇怪结果答案

【问题标题】：Mahout ClusterDump - odd results when displaying graphml outputMahout ClusterDump - 显示 graphml 输出时的奇怪结果
【发布时间】：2012-07-23 09:11:51
【问题描述】：

我一直在使用 Mahout 对使用 XML 和 SOLR 索引输入的文本文档进行 k-means 聚类。

聚类似乎有效，并且确实将类似的文档放入同一个 k-means 聚类中，这很棒。

但是，每当我使用 ClusterDump (--outputFormat GRAPH_ML) 显示 graphml 输出时，我都会得到一个显示所有集群的图，但每个元素都显示在其父集群的圆周周围，这意味着每个元素的半径大致相同质心。

我预计元素会根据它们彼此的相似性分散在整个集群中（如 Mahout 示例中所示）。

有没有人看到他们的 Mahout k-means 集群有类似的东西？我自己试图弄清楚这一点，但任何提示或建议都会有很大的帮助。

非常感谢，

莫里斯

【问题讨论】：

标签： cluster-computing visualization mahout k-means

【解决方案1】：

请您解释一下您如何成功地使用 mahout 和 kmeans 算法对 solr 索引输入进行聚类？

顺便说一句，当我对 .txt 文件进行聚类时，我的输出 (clusters_dump) 如下所示：

CL-0{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 4:4.796, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10 :1.000, 11:1.000, 12:4.690, 14:1.000, 15:11.446, 16:4.359] r=[]}

CL-1{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10:1.000, 11 :1.000, 14:1.000, 15:11.446] r=[]}

CL-2{n=0 c=[4:1.000, 12:1.000, 13:8.315, 16:1.000] r=[]}

因为我指定了集群的数量 3。

【讨论】：