【深度之眼《机器学习》西瓜书训练营第十三期】支持向量机

支持向量机

1. 支持向量机

1.1. 间隔与支持向量
1.2. 对偶问题
1.3. 核函数
1.4. 软间隔与正则化
1.5. 支持向量回归
1.3. 核函数
1.4. 软间隔与正则化
1.5. 支持向量回归
1.6. 核方法

1. 支持向量机

1.1. 间隔与支持向量

给定训练样本集 $D=\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\},y_i \in \{-1,+1\}$
分类学习最基本的想法：基于训练集 $D$ 在样本空间中找到一个划分超平面(不是超曲面，数据是线性可分的)，将不同类别的样本分开

超平面应该位于两类训练样本"正中间"，对于局部扰动容忍最好，泛化能力最强
【深度之眼《机器学习》西瓜书训练营第十三期】支持向量机

在样本空间中，划分超平面可通过线性方程
$w ^Tx+b=0$ 来描述，

$w=(w_1;w_2;\ldots;w_d)$ 为法向量，决定了超平面的方向
$b$ 为位移项，决定了超平面与原点之间的距离；
$w$ 和 $b$ 唯一决定超平面
样本空间中认一点 $x$ 到超平面 $(w,b)$ 的距离为： $r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|}$

假设超平面 $(w,b)$ 能将样本正确分类，即对于 $(x_i,y_i)\in D$ ,

若 $y_i=+1$ ，则有 $w^T x_i + b >0$
若 $y_i=-1$ ，则有 $w^T x_i + b <0$
$\left\{\begin{array}{ll} \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \geqslant+1, & y_{i}=+1 \\ \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \leqslant-1, & y_{i}=-1 \end{array}\right.$

间隔：两个异类支持向量到超平面的距离
$\gamma=\frac{2}{\|\boldsymbol{w}\|}$
【深度之眼《机器学习》西瓜书训练营第十三期】支持向量机

找到具有最大间隔的划分超平面,即找能满足联立方程式中约束的参数 $w$ 和 $b$ ，使得 $\gamma$ 最大，即
$\max _{\boldsymbol{w}, b} \frac{2}{\|\boldsymbol{w}\|};\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, i=1,2, \ldots, m$

为了最大化间隔，仅需最大化 $\|\boldsymbol{w}\|^{-1}$ ,等价于最小化 $\|\boldsymbol{w}\|^2$
$\min _{\boldsymbol{w}, b} \frac{\|\boldsymbol{w}\|^2}{2};\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, i=1,2, \ldots, m$

间隔貌似仅与 $w$ 有关，但事实上 $b$ 通过约束隐式地影响着 $w$ 的取值，进而对间隔产生影响.

$\uparrow \uparrow$ 支持向量机(SVM)的基本型

1.2. 对偶问题

求解上式来得到大间隔划分超平面所对应的模型
$f(x)=w^Tx+b$
其中 $w$ 和 $b$ 的模型参数，

本身为一个凸二次规划问题，能直接用现成的优化计算包求解
使用拉格朗日乘子法可得到其对偶问题
对于上式的每条约束添加拉格朗日乘子 $\alpha_{i} \geqslant 0$ ,则该问题的拉格朗日函数可写为
$L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)$
其中 $\alpha=(\alpha_1;\alpha_2;\ldots;\alpha_m)$ .令 $L(\boldsymbol{w}, b, \boldsymbol{\alpha})$ 对 $w$ 和 $b$ 的偏导为0
$\begin{aligned} \boldsymbol{w} &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i} \\ 0 &=\sum_{i=1}^{m} \alpha_{i} y_{i} \end{aligned}$
带入 $L(\boldsymbol{w}, b, \boldsymbol{\alpha})$ 中的 $w$ 和 $b$ 消去，得到对偶问题为
$\max _{\alpha} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j};\text { s.t. } \sum_{i=1}^{m} \alpha_{i} y_{i}=0, \alpha_{i} \geqslant 0, i=1,2, \ldots, m$
解出 $\alpha$ 后，求出 $w$ 和 $b$ 即可得到模型
$\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}+b \end{aligned}$

上述过程需满足KKT条件，
$\left\{\begin{array}{l} \alpha_{i} \geqslant 0 \\ y_{i} f\left(\boldsymbol{x}_{i}\right)-1 \geqslant 0 \\ \alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1\right)=0 \end{array}\right.$

SMO算法

基本思路：先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 上的极值。由于存在约束 $\sum_{i=1}^{m}\alpha_i y_i=0$ ,若固定 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 可由其他变量导出
SMO每次选择两个变量 $\alpha_i$ 和 $\alpha_j$ ，并固定其他参数，这样，在参数初始化后，SMO不断执行如下两个步骤直至收敛
- 选取一对需更新的变量 $\alpha_i$ 和 $\alpha_j$
- 固定 $\alpha_i$ 和 $\alpha_j$ 意外的参数，求解对偶问题获得更新后的 $\alpha_i$ 和 $\alpha_j$

1.3. 核函数

1.4. 软间隔与正则化

1.5. 支持向量回归

得更新后的 $\alpha_i$ 和 $\alpha_j$

支持向量机

1. 支持向量机

1.1. 间隔与支持向量

1.2. 对偶问题

1.3. 核函数

1.4. 软间隔与正则化

1.5. 支持向量回归

1.3. 核函数

1.4. 软间隔与正则化

1.5. 支持向量回归

1.6. 核方法