【发布时间】:2019-12-18 16:01:02
【问题描述】:
我有一个包含 200,000 个观察值和三个维度的数据集。我正在尝试通过 Elbow 方法发现最佳集群数量,如下所示:
library(cluster) # clustering algorithms
library(factoextra) # clustering algorithms & visualization
set.seed(123)
fviz_nbclust(df, kmeans, method = "wss")
但是,考虑到我的数据集的大小,这个方法在一个多小时后似乎没有产生效果。我一直在寻找可以识别“最佳”集群数量的 KMeans 并行版本,但无济于事。在大数据上运行 K-means 的最佳方法是什么?
【问题讨论】:
-
谢谢@Alexis。欣赏它