【发布时间】:2018-12-13 22:53:54
【问题描述】:
我正在尝试从大数据集暗中进行聚类: 行数:140 万 列:900
预计集群数量:10,000 (10k)
问题是:我的数据集大小为 10Gb,而我的 RAM 为 16Gb。我正在尝试在 Matlab 中实现。如果有人能回应它,对我会有很大的帮助。
附:到目前为止,我已经尝试过层次聚类。在一篇论文中,他们建议采用“固定半径增量预聚类”。但我不明白程序。
提前致谢。
【问题讨论】:
-
我正在尝试在Matlab中实现。为什么
python标签? -
感谢您的回复。如果我知道算法,那么我相信,我也可以在 python 中实现。
-
我假设每个数据点占用大约 8 个字节,因为
(1.4E6*900*8)/(10*2^30)接近 1,但这不足以让我帮助您。你有什么样的数据?文字,数字?你有 140 万个事件的 900 个参数?请澄清您的问题,发布您目前拥有的代码,并发布几行供人们测试他们的答案。
标签: matlab bigdata cluster-analysis