【发布时间】:2013-02-28 20:08:25
【问题描述】:
我有一个 62 列和 181408 行的矩阵,我将使用 k-means 进行聚类。理想情况下,我想要一种确定最佳集群数量的方法。我已经尝试使用集群包中的clusGap 实现间隙统计技术(下面的可重现代码),但这会产生一些与向量大小(122 GB)和 Windows 中的memory.limitproblems 和“@ 987654324@" 在 OS X 中。是否有人对可用于确定具有大型数据集的最佳集群数量的技术有任何建议?或者,或者,如何使我的代码起作用(并且不需要几天才能完成)?谢谢。
library(cluster)
inputdata<-matrix(rexp(11247296, rate=.1), ncol=62)
clustergap <- clusGap(inputdata, FUN=kmeans, K.max=12, B=10)
【问题讨论】:
-
这与您关于大数据上的 kmeans 问题的第二部分有关:stackoverflow.com/q/6372397/1036500
标签: r cluster-analysis k-means