如何在python中对多维数据集进行聚类？答案

【问题标题】：How to cluster multi dimensional dataset in python?如何在python中对多维数据集进行聚类？
【发布时间】：2018-04-19 05:48:59
【问题描述】：

我一直在使用 sklearn 的 kmeans 和 DBSCAN 算法对具有 2 个特征的数据集进行聚类。我必须对具有非常高维度的数据进行聚类，例如 800-900 我想知道如何尽可能准确地实现它。

P.S：经过一番搜索，我意识到可以应用 PCA 进行降维，但我想知道如果不是 sklearn ，在任何其他库中是否还有其他方法。

【问题讨论】：

【解决方案1】：

您可以在高维数据上运行 KMeans 和 DBSCAN。

此外，重要的是内在维度。一个 900 维的数据集，其中 898 维是常数 0，其行为与二维数据集完全一样（嗯，它可能需要 450 倍的时间，但这是意料之中的）。

【讨论】：