【发布时间】:2019-12-15 00:59:03
【问题描述】:
我正在尝试在不平衡的数据集上实现软聚类。该数据集有大约 200k 行和 40 列。
每当我运行fanny() 函数时,RStudio 就会崩溃,我不得不开始一个新会话。
我可以在上述数据集上成功运行cmeans(),但是当我使用fanny() 函数时。
它最初用于显示此错误:
错误:无法分配大小为 123.5 Gb 的向量
所以我在启动 R 时在目标(属性)中添加了--max-vsize=1500000M。添加后,每当我运行fanny() 函数时,RAM 使用量将达到 31.8 GB。几分钟后,RStudio 就会崩溃。
library(cluster)
#The dataset 'train' has around 20 factor columns and 20 integer columns with 200k rows.
Cluster <- fanny(trainSet, 3)
【问题讨论】:
-
无监督数据集如何“不平衡”?这是监督分类中的一个术语。
-
目标变量存在于实际数据集中,但我试图在删除目标变量后对相同的数据运行聚类。这只是为了增加我对数据的理解。
-
好吧,如果它在大类中发现了集群,是不是会让你更加理解?
-
是的,我忘了提。我只在多数类上运行集群,这对于数据来说是 90%。
标签: r cluster-analysis