【发布时间】:2016-10-16 12:08:51
【问题描述】:
我是机器学习和数据分析的新手,我正在努力对我的数据进行聚类。我正在处理具有 6 个特征的大约 40,000 个观测值。
我尝试了各种聚类方法,包括 K-Means、DBSCAN,还尝试了带有链接的 scipy 层次聚类。在预处理期间,缺失数据被估算,所有数据都被标准化。一旦我完成 PCA 以将尺寸从 4 减少到 6,我的数据看起来就像一个新月形状,可以在下面看到为蓝点。
根据轮廓系数分析,我确定对 K-means 使用 10 个聚类是最好的,结果如下:
在对数据进行聚类后执行 PCA 时,结果变化不大。
DBSCAN 本身决定 4 个集群并给出 4 个集群,但大多数数据从这些集群中排除并被描述为噪声。
对于分层方法,尝试执行链接()时数据使用量过多,并不断提供内存错误消息。
有什么方法可以对我的数据进行聚类?我的数据的形状(新月形)是否适合其他建模方法?
【问题讨论】:
-
具有 3 或 4 个集群的高斯混合模型可能很适合您的数据。
标签: machine-learning cluster-computing cluster-analysis hierarchical-clustering unsupervised-learning