【发布时间】:2011-11-17 10:25:18
【问题描述】:
我有一组 5000 万个文本 sn-ps,我想用它们创建一些集群。维度可能在 60k-100k 之间。平均文本 sn-p 长度为 16 个单词。可以想象,频率矩阵会非常稀疏。我正在寻找可以让我找到这些集群的软件包/libray/sdk。我过去曾尝试过 CLUTO,但这对 CLUTO 来说似乎是一项非常艰巨的任务。从我在网上的研究中,我发现 BIRCH 是一种可以处理此类问题的算法,但不幸的是,我在网上找不到任何 BIRCH 实现软件(我只找到了几个 ad-hoc 实现,比如分配项目,缺乏任何任何类型的文档)。有什么建议吗?
【问题讨论】:
-
我不确定,因为我想检查一下我的空闲时间,但是 map reduce/hadoop 可以帮助你吗?
-
好吧,我必须并行化一个聚类算法才能让它工作,我有点希望那里有一些现成的解决方案
-
看看 R、Python、Java 中的文本挖掘...这在 N (# rows) 或 P (# dims) 以及任何体面的文本挖掘/聚类中都不是特别大包应该让你开始。
-
请问您想对这些集群做什么?这将导致另一个问题,即您需要使用哪种聚类方法。
标签: dataset cluster-analysis large-data