【问题标题】:principal component variance given by eigenvalue for principal eigenvector由主特征向量的特征值给出的主成分方差
【发布时间】:2012-08-12 06:46:33
【问题描述】:

在主成分分析中

我想知道为什么数据会投射到主组件上 与主特征向量对应的特征值有方差吗?

我在教科书中找不到解释。

【问题讨论】:

  • 你能描述一下上下文吗?对我来说,你的问题听起来有点乱。
  • 协方差矩阵用 C 表示的多元分布;那么方差及其特征向量的方向将是相应的特征值。

标签: machine-learning pca dimensionality-reduction principal-components


【解决方案1】:

在主成分分析 (PCA) 中,您正在计算原始坐标系的旋转,以使新协方差矩阵的所有非对角元素都变为零(即,新坐标不相关)。特征向量定义新坐标轴的方向,特征值对应于新协方差矩阵的对角元素(沿新轴的方差)。因此,根据定义,特征值定义了沿相应特征向量的方差。

请注意,如果您要将所有原始数据值乘以某个常数(值大于 1),则会增加数据的方差(和协方差)。如果您随后对修改后的数据执行 PCA,您计算的特征向量将是相同的(您仍然需要相同的旋转来使您的坐标不相关)但特征值会增加,因为沿新坐标轴的数据的方差会增加。

【讨论】:

    【解决方案2】:

    好问题。请阅读CMU's 36350 lecture notes。简而言之,PCA 优化问题的框架导致了拉格朗日约束优化特征问题(第 2-5 页),该问题通过取样本协方差矩阵的特征向量来解决。

    【讨论】:

      【解决方案3】:

      您在主成分分析中所做的是“对协方差矩阵进行对角化”, 而在对角化协方差的坐标基础上,你可以读出每个分量的方差。

      要真正理解它,需要学习作为特征值问题基础的线性代数;诸如“Hermitian 矩阵的特征值在正交变换下是不变的”之类的东西,但您可以尝试的是:

      1. 生成一些x-值作为零均值高斯方差sigma_x2
      2. 生成独立的y 值作为具有方差sigma_y2<sigma_x2 的零均值高斯。
      3. 将此可视化为二维数据集 -- 请注意,它已构建 使得相关矩阵是对角的,并且数据在每个方向上的方差 (x,y) 是协方差矩阵的对应元素。还要注意这两个 该矩阵的特征值为sigma_x2,sigma_x1,特征向量为[1,0][0,1]
      4. 现在通过简单地旋转整个图片来构建相关数据集。在数学上,选择一个正交矩阵O,并生成每个[x,y] 样本的旋转版本。你会发现这个转换后的数据集的相关矩阵有 非对角元素,即xy 之间的相关性。但是如果你做特征值分解,特征向量只是正交矩阵的列 用于首先旋转数据,特征值是原始特征值。

      主成分分析,即协方差矩阵的特征值分解,是反向运行这个过程:从相关数据集开始,然后推导出对角化协方差矩阵的坐标基。

      了解它可能需要学习正式的数学和一些经验,也许在 2 或 3 维问题上尝试(并将其可视化)会帮助您了解它。

      【讨论】:

        猜你喜欢
        • 2018-08-04
        • 1970-01-01
        • 1970-01-01
        • 2013-10-21
        • 2013-05-15
        • 1970-01-01
        • 2011-06-26
        • 2014-05-11
        • 2019-04-16
        相关资源
        最近更新 更多