【问题标题】:Understanding principal component analysis with k-means clustering使用 k-means 聚类理解主成分分析
【发布时间】:2021-12-20 14:48:50
【问题描述】:

我有一个可视化,绘制 k 表示具有主成分分析 (PCA) 值的集群。 据我了解。 PCA 是一种算法,可以将大量数据缩减为更小的数据,以便我们更好地进行可视化。

我可以将我的可视化解释为大多数数据彼此相似,这就是它们彼此聚集的原因吗?

或者我对带有 K 表示聚类的 PCA 的理解是错误的?

【问题讨论】:

  • 这似乎不是与 python 相关的问题。

标签: python pandas k-means pca


【解决方案1】:

PCA 将初始特征空间投影到低维空间。不过要小心,在应用 PCA 之后,特征不是初始特征,而是特征向量。这就是为什么 PCA 属于特征转换的范畴

关于您的问题,似乎采用前两个特征向量(也就是具有最大特征值的特征向量)没有帮助。但是,我建议在得出“我的数据无法聚类”的结论之前尝试以下操作:

  • PCA 是一种线性变换。您的数据可能比您预期的要复杂,因此,您需要引入一些非线性。这意味着您应该训练一个自动编码器,以便将您的数据投影到较低维度的空间中
  • K-means 或多或少地产生相同半径的球形簇。您的数据可能很容易出现这种情况。尝试其他算法,例如高斯混合模型或 DBSCAN
  • 尝试 3D。引入第三个特征向量并在 3D 中绘图。您可能会惊讶地发现您的数据毕竟是可分离的

我看到了 3 个集群,请注意如何确定集群的数量。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-02-27
    • 2019-12-05
    • 2019-11-25
    • 1970-01-01
    • 2018-11-22
    • 2014-04-13
    • 2021-11-18
    • 2017-05-17
    相关资源
    最近更新 更多