【发布时间】:2012-11-08 04:00:55
【问题描述】:
我正在使用 Weka 的 SimpleKMeans 函数来聚类 96000 个术语(作为单词)。 Weka 将所需的簇数作为参数。因此,它为 num 提供 2。集群的默认值。 我拥有的数据集是 96000x641000 稀疏数据集。一开始我给了 10000 个集群编号,但我认为这对于推荐过程来说太多了。 有没有一种方法可以根据算法计算 #of clusters 或找到理想的 #of clusters?
【问题讨论】:
标签: java cluster-analysis weka k-means