16 主成分分析
16.1 总体主成分分析
16.1.1 基本想法
数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息
主成分分析中,
- 首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1
- 之后,对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和最大的,方差表示在新变量上信息的大小
- 最终,将新变量依次称为第一主成分,第二主成分等
数据集合集合中的样本由实数空间中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。对原坐标系中的数据进行主成分分析等价于坐标系旋转变换,将数据投影到新的坐标轴上,新的坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等,数据在每一轴上的坐标值的平方表示相应变量的方差;并且,这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的
对方差最大的解释:
故,在旋转坐标中选取离样本点的距离平方和最小的轴
在数据总体上进行的主成分分析成为总体主成分分析,在有限样本上进行的主成分分析成为样本主成分分析