16.1 总体主成分分析

16.1.1 基本想法

数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息

主成分分析中,

  • 首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1
  • 之后,对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和最大的,方差表示在新变量上信息的大小
  • 最终,将新变量依次称为第一主成分,第二主成分等

数据集合集合中的样本由实数空间中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。对原坐标系中的数据进行主成分分析等价于坐标系旋转变换,将数据投影到新的坐标轴上,新的坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等,数据在每一轴上的坐标值的平方表示相应变量的方差;并且,这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的

对方差最大的解释:

y1=OA2+OB2+OC2样本在变量y_1上的方差和 = OA'^2+OB'^2 + OC'^2
OA2+OB2+OC2=constvariable\because OA^2+OB^2 + OC^2 = const variable
max OA2+OB2+OC2=min AA2+BB2+CC2\therefore max \ OA'^2+OB'^2 + OC'^2 = min \ AA'^2+BB'^2 + CC'^2

故,在旋转坐标中选取离样本点的距离平方和最小的轴
《统计学习方法》笔记——PCA
在数据总体上进行的主成分分析成为总体主成分分析,在有限样本上进行的主成分分析成为样本主成分分析

16.1.2 定义和导出

《统计学习方法》笔记——PCA
《统计学习方法》笔记——PCA
《统计学习方法》笔记——PCA

16.1.3 主要性质

《统计学习方法》笔记——PCA
《统计学习方法》笔记——PCA
《统计学习方法》笔记——PCA
《统计学习方法》笔记——PCA
《统计学习方法》笔记——PCA

相关文章: