如何为大型数据集实现 fanny（软聚类）？答案

【问题标题】：How to implement fanny (soft clustering) for a large Dataset?如何为大型数据集实现 fanny（软聚类）？
【发布时间】：2019-12-15 00:59:03
【问题描述】：

我正在尝试在不平衡的数据集上实现软聚类。该数据集有大约 200k 行和 40 列。每当我运行fanny() 函数时，RStudio 就会崩溃，我不得不开始一个新会话。

我可以在上述数据集上成功运行cmeans()，但是当我使用fanny() 函数时。它最初用于显示此错误：

错误：无法分配大小为 123.5 Gb 的向量

所以我在启动 R 时在目标（属性）中添加了--max-vsize=1500000M。添加后，每当我运行fanny() 函数时，RAM 使用量将达到 31.8 GB。几分钟后，RStudio 就会崩溃。

library(cluster)
#The dataset 'train' has around 20 factor columns and 20 integer columns with 200k rows.
Cluster <- fanny(trainSet, 3)

【问题讨论】：

【解决方案1】：

显然范妮试图使用距离矩阵。

因此我建议你仔细研究一下算法的思想以及它是否需要那个矩阵，或者它是否可以有效地实现（这意味着要编写算法，而不仅仅是调用它！ ) 不这样做。如果它需要距离矩阵，那么您将无法在大于 65k 的数据集上实现 fanny。

【讨论】：