k近邻
k邻近学习是一种常用的监督学习。其工作机制:给定测试样本,基于某种度量找出与测试样本最靠近的K个训练样本,在分类任务中是基于K个“邻居”样本的类别投票法来确定测试样本的类别,在回归任务中是基于K个“邻居”样本输出标记的平均值作为预测结果。
k邻近学习缺陷与优点
- k邻近称为“懒惰学习”:训练阶段仅仅保存训练样本,训练时间开销为0,待收到测试样本后才进行学习
- 不同距离计算导致不同的结果”
- 假设样本独立同分布 ,对任意x和任意小整数a,在x的附近a距离总能找到一个训练样本z。则
c∗=argmaxxϵYP(c|x) 表示贝叶斯最优分类器。经过推导可以得到K近邻泛化错误不超过贝叶斯最优分类器的2倍。想要维持K邻近低范化错误,则训练样本密度必须足够大。对于高维而言,若每一个属性维度的训练样本的密度都很大,这会导致训练样本数量急剧增加,就出现了’维数灾难‘。
主成分分析PCA
PCA是一种对原始高维空间进行线性变换从而获得低维空间,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。
需要注意PCA属于特征抽取不属于特征选择。给定d维空间中的样本
帮助理解这里有小插曲
- A⋅B=|A||B|cos(a) A与B的内积等于A到B的投影长度乘以B的模。
设向量B的模为1,A⋅B=|A|cos(a),则A与B的内积值等于A向B所在直线投影的矢量长度
要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值
- 在直角坐标系中的向量(x,y)实际上表示线性组合:x(1,0)T+y(0,1)T
- 两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去
根据以上的预备知识可以理解原属性
现在进入正题,对于正交属性的空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?
- 最近重构性:样本点到这个平面的距离都足够近
- 最大可分性:样本点在这个超平面的投影都尽可能分开
最近重构性和最大可分性可以得到两种主成分的等价推导,以下推导是从最近重构性角度来出发。
- 假定样本进行了中心化即
∑xi=0 - 变换坐标为W=
(w1,w2,...wm) ,其中wi 是标准正交基–∥wi∥2=1 ,wTiwj=0i≠j - 设将维度降低到d’,样本点
xi→ 在低维坐标中的投影zi→=(zi1;zi2...zid′) 其中zij=wTi→xj→ 是xi 在低维坐标系的第j维投影 - 基于低维样本
zi 重构xi ,重构后的每个样本点来说xi^=∑d′j=1zijwj→ 。重构的意思低维新空间的坐标与基做内积
原样本点
- 其中
xi 为dx1列向量,xixTi 实际为dxd的矩阵,故∑xixTi 为m个dxd样本矩阵和,可以表示为XXT
从最大可分性出发,要使样本
-
对于两个相同向量做内积为方差的m倍,两个不同向量做内积为协方差m倍,m为向量的维数–内积与方差(协方差)相互等价。由于主成分高维原始属性 是在正交基上的投影后得到 低维属性,故再低维属性之间的协方差为0即
WTxixTjW=0 i≠j 目标函数为协方差矩阵,对角线表示的为低维新属性的方差,非对角线表示的为低维新属性之间的协方差Z=WTX 得到了主成分的优化目标和约束,如何求解W呢??约束条件为等式则可利用拉格朗日乘子法
故只需要对协方差矩阵XXT 进行特征值分解,求得取前d’个最大的特征值对应的特征向量构成W=(w1,w2..wd′) 这就是主成分分析的解 注意X不为方阵故
XTX 不等于XXT X表示X=(x1,x2..xm) ,m为样本个数,每xi 为d维。XTX 的意思为属性与属性之间的协方差矩阵,XXT 表示的为样本与样本之间的协方差矩阵- 降维后的低维空间d’通常是由用户指定,或者通过d’值不同的低维空间 对k近邻分类器(或者开销较小的学习器)进行交叉验证,取较好的d’值
PCA算法描述如下
局部嵌入LLE
在讨论局部嵌入LLE(locally Linear Embeding)之前需要知道流行学习
- 流行学习是借鉴了拓扑流行概念的降维方法。”流形”在局部具有欧式空间的性质,能用欧式距离计算度量距离。这给降维方法给了很大的启发:低维流行嵌入到高维空间,数据样本分布虽然复杂但是在局部上具有欧式空间性质,因此可以容易在局部建立低维与高维空间的映射关系,然后设法推广到全局。
等度量映射(Isomap)
在高维空间中的直线距离 在 低维嵌入流行 中是不可达到的
低维嵌入流行两点的距离是“测地线”距离:想象一只虫子沿着曲线从一点爬到另外一点,虫子爬过的路径长度就是测地距离,直接在高维空间算直线距离是不恰当的。那如何计算测地距离?利用流行在局部上欧式空间同胚这个性质,基于欧式距离找出邻近点,建立邻近图即邻近点之间有连接,非邻近点之间不存在连接。故测地线距离问题转变为计算邻接图之间最短路径之间的问题。最短路问题可用著名的Dijkstra算法或者Floyd算法。
局部线性嵌入与Isomap不同,Isomap是保持近邻样本之间的距离不变。
但是局部线性嵌入试图保持领域内样本之间的线性关系不变。
假定样本
以上同理用拉格朗日解得
M已知 求M最小的d’个特征值对应的特征向量组成的矩阵即为
对于不在样本