【发布时间】:2020-11-05 01:55:22
【问题描述】:
我正在处理尺寸为 400 万 x 70 的数据框。除了偶尔的缺失值之外,大多数列是数字的,有些是分类的。必须在所有数据点上运行聚类,我们希望生成大约 400,000 个聚类(因此不能对数据集进行二次抽样)。
我已经研究过将 Gower 的距离度量用于混合类型数据,但这会产生一个维度为 400 万 x 400 万的相异矩阵,因为它有 10^13 个元素,所以使用它是不可行的。因此,该方法需要完全避免相异矩阵。
理想情况下,我们会使用凝聚聚类方法,因为我们需要大量的聚类。
什么是解决这个问题的合适方法?我正在努力寻找满足所有这些要求的方法,我意识到这是一个很大的问题。
B 计划是使用简单的基于规则的分组方法,仅基于分类变量,只挑选几个变量进行聚类,否则我们将遭受维度灾难。
【问题讨论】:
标签: python r bigdata cluster-analysis mixed