【发布时间】:2018-04-19 05:48:59
【问题描述】:
我一直在使用 sklearn 的 kmeans 和 DBSCAN 算法对具有 2 个特征的数据集进行聚类。我必须对具有非常高维度的数据进行聚类,例如 800-900 我想知道如何尽可能准确地实现它。
P.S:经过一番搜索,我意识到可以应用 PCA 进行降维,但我想知道如果不是 sklearn ,在任何其他库中是否还有其他方法。
【问题讨论】:
标签: machine-learning cluster-analysis pca
我一直在使用 sklearn 的 kmeans 和 DBSCAN 算法对具有 2 个特征的数据集进行聚类。我必须对具有非常高维度的数据进行聚类,例如 800-900 我想知道如何尽可能准确地实现它。
P.S:经过一番搜索,我意识到可以应用 PCA 进行降维,但我想知道如果不是 sklearn ,在任何其他库中是否还有其他方法。
【问题讨论】:
标签: machine-learning cluster-analysis pca
您可以在高维数据上运行 KMeans 和 DBSCAN。
此外,重要的是内在维度。一个 900 维的数据集,其中 898 维是常数 0,其行为与二维数据集完全一样(嗯,它可能需要 450 倍的时间,但这是意料之中的)。
【讨论】: