【问题标题】:Mahout ClusterDump - odd results when displaying graphml outputMahout ClusterDump - 显示 graphml 输出时的奇怪结果
【发布时间】:2012-07-23 09:11:51
【问题描述】:

我一直在使用 Mahout 对使用 XML 和 SOLR 索引输入的文本文档进行 k-means 聚类。

聚类似乎有效,并且确实将类似的文档放入同一个 k-means 聚类中,这很棒。

但是,每当我使用 ClusterDump (--outputFormat GRAPH_ML) 显示 graphml 输出时,我都会得到一个显示所有集群的图,但每个元素都显示在其父集群的圆周周围,这意味着每个元素的半径大致相同质心。

我预计元素会根据它们彼此的相似性分散在整个集群中(如 Mahout 示例中所示)。

有没有人看到他们的 Mahout k-means 集群有类似的东西?我自己试图弄清楚这一点,但任何提示或建议都会有很大的帮助。

非常感谢,

莫里斯

【问题讨论】:

    标签: cluster-computing visualization mahout k-means


    【解决方案1】:

    请您解释一下您如何成功地使用 mahout 和 kmeans 算法对 solr 索引输入进行聚类?

    顺便说一句,当我对 .txt 文件进行聚类时,我的输出 (clusters_dump) 如下所示:

    CL-0{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 4:4.796, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10 :1.000, 11:1.000, 12:4.690, 14:1.000, 15:11.446, 16:4.359] r=[]}

    CL-1{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10:1.000, 11 :1.000, 14:1.000, 15:11.446] r=[]}

    CL-2{n=0 c=[4:1.000, 12:1.000, 13:8.315, 16:1.000] r=[]}

    因为我指定了集群的数量 3。

    【讨论】:

      猜你喜欢
      • 2018-05-28
      • 2016-05-17
      • 1970-01-01
      • 2015-04-07
      • 1970-01-01
      • 2016-10-04
      • 2015-01-13
      • 2016-11-19
      • 1970-01-01
      相关资源
      最近更新 更多