【发布时间】:2012-11-01 15:28:00
【问题描述】:
我编写了一个 Java 代码来对一个包含大约 100000 行x100000 列(稀疏行)的巨大数据集进行聚类。但是数据集是用稀疏实例创建的,因此它具有稀疏矩阵的结构。
我可以在我的代码中使用 3 个聚类函数:
JavaML:Kmeans,Weka:SimpleKmeans,Weka:Xmeans
我已经运行了 Weka 的 SimpleKmeans 函数,但它工作了大约 9 个小时,并且集群过程还没有结束。这些函数的预计运行时间是多少,哪一个最适合这个数据集?
【问题讨论】:
标签: java dataset cluster-analysis k-means sparse-matrix