【发布时间】:2011-09-16 09:00:33
【问题描述】:
我必须在一个非常大的矩阵(大约 300.000x100.000 个值,超过 100Gb)上执行 k 均值聚类。我想知道我是否可以使用 R 软件来执行此操作或 weka。 我的计算机是一个多处理器,具有 8Gb 的内存和数百 Gb 的可用空间。
我有足够的空间进行计算,但加载这样的矩阵似乎是 R 的问题(我不认为使用 bigmemory 包会帮助我,大矩阵会自动使用我的所有 RAM,如果不够的话,我会使用我的交换文件空间)。
所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联)。
谢谢你帮助我。
注意:我使用的是 linux。
【问题讨论】:
-
使用 R 可能会遇到的问题是,将此数据存储在矩阵中会将索引限制为最大整数值 (2147483647),并且您拥有的元素不止于此。这不是内存限制,而是使用整数来索引数据的限制。你可以对矩阵进行采样吗?
-
为什么要一次聚集所有 300,000 个对象?为什么不抽取一个较小的样本,将其聚类,然后将剩余的对象分配到它们最近的聚类中?
-
您要查找多少个集群?是否有已知聚类的样本用于验证?
标签: r cluster-analysis weka k-means mahout