【问题标题】:How to implement fanny (soft clustering) for a large Dataset?如何为大型数据集实现 fanny(软聚类)?
【发布时间】:2019-12-15 00:59:03
【问题描述】:

我正在尝试在不平衡的数据集上实现软聚类。该数据集有大约 200k 行和 40 列。 每当我运行fanny() 函数时,RStudio 就会崩溃,我不得不开始一个新会话。

我可以在上述数据集上成功运行cmeans(),但是当我使用fanny() 函数时。 它最初用于显示此错误:

错误:无法分配大小为 123.5 Gb 的向量

所以我在启动 R 时在目标(属性)中添加了--max-vsize=1500000M。添加后,每当我运行fanny() 函数时,RAM 使用量将达到 31.8 GB。几分钟后,RStudio 就会崩溃。

library(cluster)
#The dataset 'train' has around 20 factor columns and 20 integer columns with 200k rows.
Cluster <- fanny(trainSet, 3)

【问题讨论】:

  • 无监督数据集如何“不平衡”?这是监督分类中的一个术语。
  • 目标变量存在于实际数据集中,但我试图在删除目标变量后对相同的数据运行聚类。这只是为了增加我对数据的理解。
  • 好吧,如果它在大类中发现了集群,是不是会让你更加理解?
  • 是的,我忘了提。我只在多数类上运行集群,这对于数据来说是 90%。

标签: r cluster-analysis


【解决方案1】:

显然范妮试图使用距离矩阵。

因此我建议你仔细研究一下算法的思想以及它是否需要那个矩阵,或者它是否可以有效地实现(这意味着要编写算法,而不仅仅是调用它! ) 不这样做。如果它需要距离矩阵,那么您将无法在大于 65k 的数据集上实现 fanny。

【讨论】:

    猜你喜欢
    • 2017-08-14
    • 2011-07-25
    • 1970-01-01
    • 2018-04-26
    • 2011-11-07
    • 2021-07-27
    • 2021-01-10
    • 2013-11-11
    • 1970-01-01
    相关资源
    最近更新 更多