支持向量机（SVM）和python实现（二）

4. 松弛向量与软间隔

前面讨论的情况都是样本分布都可以被超平面完美分割的情况，但是在现实任务中，经常会有难以完美划分的情况，就算正好完美划分了样本点，也很难判断这个结果是不是过拟合造成的。
支持向量机（SVM）和python实现（二）
（图来自https://blog.csdn.net/zouxy09/article/details/17291543）
上左图中如果我们要考虑点A，得到的超平面就是红线那样，上右图中若是要考虑在class2中的红点，得到的超平面就是蓝线那样，如此精确的划分每个点很容易导致模型过拟合，为了缓解这个问题，我们引入软间隔的概念，软间隔允许某些样本不满足约束：

\begin{matrix} (4.1) & y_{i} (ω^{T} x_{i} + b) \geq 1 \end{matrix}

于是我们修改了优化目标：

\begin{matrix} (4.2) & m i n . \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} l_{0 / 1} (y_{i} (ω^{T} x_{i} + b) - 1) \end{matrix}

其中C>0是一个常数，

l_{0 / 1} (z)

是“0/1损失函数”

l_{0 / 1} (z) = {\begin{matrix} 1, & i f z < 0 \\ 0, & o t h e r w i s e \end{matrix}

当C无穷大时，式(4.2)后面的部分迫使所有样本均满足式(4.1)的约束条件，式(4.2)则等价于(1.2)，也就是说C越大，拟合非线性的能力越强，同时过拟合的风险也越高。引入

l_{0 / 1} (z)

的目的是，我们只希望那些不满足(4.1)约束条件的点被算入优化目标中，但是

l_{0 / 1 (z)}

非凸，非连续，导致这样的目标函数不容易求解，我们可以使用近似的曲线替代，常用的损失函数为hinge函数：

l_{h i n g e} (z) = m a x (0, 1 - z)

若采用hinge损失函数，则式(4.2)变成了：

\begin{matrix} (4.3) & m i n . \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} m a x (0, 1 - y_{i} (ω^{T} x_{i} + b)) \end{matrix}

引入松弛变量

ξ_{i} \geq 0

后，原来的约束条件就变为：

\begin{matrix} (4.4) & {\begin{matrix} y_{i} (ω^{T} x_{i} + b) \geq 1 - ξ_{i} \\ ξ_{i} \geq 0 \end{matrix} \end{matrix}

同时式(4.3)也可以改写为

\begin{matrix} (4.5) & m i n . \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} ξ_{i} \end{matrix}

我们重新引入拉格朗日乘子

α_{i} \geq 0 i = 1, 2, . . ., m

，可得：

L (ω, b, α, ξ, β) = \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} ξ_{i} + \sum_{i = 1}^{m} α_{i} (1 - ξ_{i} + y_{i} (ω^{T} φ (x_{i}) + b)) - \sum_{i = 1}^{m} β_{i} ξ_{i}

对

ω, b, ξ_{i}

分别求偏导，得：

{\begin{matrix} ω = \sum_{i = 1}^{m} α_{i} y_{i} φ (x_{i}) \\ 0 = \sum_{i = 1}^{m} α_{i} y_{i} \\ C = α_{i} + β_{i} \end{matrix}

将结果带入原式得对偶问题：

\begin{matrix} (4.6) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, y = 1}^{m} α_{i} α_{j} y_{i} y_{j} κ (x_{i}, x_{j}) s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 0 \leq α_{i} \leq C \end{matrix}

和前面说的KKT条件类似，这个对偶问题同样需要满足以下KKT条件：

\begin{matrix} (4.7) & {\begin{matrix} α_{i} \geq 0 & β_{i} \geq 0 \\ y_{i} f (x_{i}) - 1 + ξ_{i} \geq 0 \\ α_{i} (y_{i} f (x_{i}) - 1 + ξ_{i}) = 0 \\ ξ_{i} \geq 0 & β_{i} ξ_{i} = 0 \end{matrix} \end{matrix}

5. SMO算法

SMO(Sequential Minimal Optimization)被用来求解SVM问题，该算法的思想是先固定 $α_{i}$ 以外的参数，然后求 $α_{i}$ 上的极值，由于存在(4.6)中的约束，我们可以先固定2个变量 $α_{i}$ 和 $α_{j}$ ,然后利用约束条件 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ 可以用 $α_{i}$ 代表 $α_{j}$ ，然后更新 $α_{i}$ 和 $α_{j}$ ，再重新选择2个参数，直到收敛。
注意到只需选取的 $α_{i}$ 和 $α_{j}$ 中有一个不满足KKT(4.7)条件，目标函数(4.6)就会在迭代后变大，因此我们要根据KKT条件来选择要更新的 $α_{i}$ 和 $α_{j}$ ，下面我们分析一下如何选取：

当 $α_{i} = 0$ 时， $β_{i} = C$ ,则 $ξ_{i} = 0$ ，得 $y_{i} f (x_{i}) \geq 1$
当 $α_{i} = C$ 时， $β_{i} = 0$ ,则 $ξ_{i} \geq 0$ ，且 $y_{i} f (x_{i}) - 1 + ξ_{i} = 0$ ，得 $y_{i} f (x_{i}) \leq 1$
当 $0 < α_{i} < C$ 时， $0 < β i < C$ ,则 $ξ_{i} = 0$ ，且 $y_{i} f (x_{i}) - 1 + ξ_{i} = 0$ ，得 $y_{i} f (x_{i}) = 1$

我们在编程时只需要选择的 $α_{i}$ 对应的 $y_{i}, x_{i}$ 违背上面的约束就可以让目标函数变大。

假如我们根据违背KKT条件选择了 $α_{1}, α_{2}$ ,则：

\begin{matrix} (5.1) & y_{1} α_{1} + y_{2} α_{2} = N N = - \sum_{i \neq 1, 2}^{m} y_{i} α_{i} \end{matrix}

因为

y_{i} y_{i} = 1

,则有：

\begin{matrix} (5.2) & α_{1} = N y_{1} - y_{1} y_{2} α_{2} \end{matrix}

将

α_{i}

和

α_{j}

代入式(4.6)，得：

\begin{matrix} (5.3) & W (α_{1}, α_{2}) = α_{1} + α_{2} - \frac{1}{2} α_{1}^{2} y_{1}^{2} κ_{11} - \frac{1}{2} α_{2}^{2} y_{2}^{2} κ_{22} - \sum_{i = 3}^{m} α_{1} α_{i} y_{1} y_{i} κ (1, i) - \sum_{i = 3}^{m} α_{2} α_{i} y_{2} y_{i} κ (2, i) + C \end{matrix}

C为一些常数的和
我们令

v_{1} = \sum_{i = 3}^{m} α_{1} α_{i} y_{1} y_{i} κ (1, i)

v_{2} = \sum_{i = 3}^{m} α_{2} α_{i} y_{2} y_{i} κ (2, i)

,则式(5.3)改为：

W (α_{1}, α_{2}) = α_{1} + α_{2} - \frac{1}{2} α_{1}^{2} y_{1}^{2} κ_{11} - \frac{1}{2} α_{2}^{2} y_{2}^{2} κ_{22} - α_{1} y_{1} v_{1} - α_{2} y_{2} v_{2} + C

代入式(5.2)得

\begin{matrix} (5.4) & W (α_{2}) = - \frac{1}{2} y_{1}^{2} (N y_{1} - y_{1} y_{2} α_{2})^{2} κ_{1, 1} - \frac{1}{2} α_{2}^{2} y_{2}^{2} κ_{2, 2} - (N y_{1} - y_{1} y_{2} α_{2}) α_{2} y_{1} y_{2} κ_{1, 2} - (N y_{1} - y_{1} y_{2} α_{2}) y_{1} v_{1} - α_{2} y_{2} v_{2} + α_{1} + α_{2} + C = - \frac{1}{2} (N - y_{2} α_{2})^{2} κ_{1, 2} - \frac{1}{2} α_{2}^{2} κ_{1, 2} - (y_{2} N α_{2} - α_{2}^{2}) κ_{1, 2} - (N - y_{2} α_{2}) v_{1} - α_{2} y_{2} v_{2} + N y_{1} - y_{1} y_{2} α_{2} + α_{2} + C \end{matrix}

对(5.4)求导得0：

\begin{matrix} (5.5) & \frac{\partial W (α_{2})}{\partial α_{2}} = N y_{2} κ_{1, 1} - α_{2} κ_{1, 1} - α_{2} k_{2, 2} - y_{2} N κ_{1, 2} + 2 α_{2} κ_{1, 2} + y_{2} v_{1} - y_{2} v_{2} - y_{1} y_{2} + 1 = - (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2} + κ_{1, 1} N y_{2} - κ_{1, 2} N y_{2} + v_{1} y_{2} - v_{2} y_{2} - y_{1} y_{2} + 1 = 0 \end{matrix}

由于

f (x) = \sum_{i = 1}^{m} α_{i} y_{i} κ (x_{i}, x) + b

，则有：

v_{1} = \sum_{i = 3}^{m} α_{i} y_{i} κ_{i, 1} = f (x_{1}) - α_{1}^{o l d} y_{1} κ_{1, 1} - α_{2}^{o l d} y_{2} κ_{1, 2} - b v_{2} = f (x_{2}) - α_{1}^{o l d} y_{1} κ_{1, 2} - α_{2}^{o l d} y_{2} κ_{2, 2} - b

又因为

α_{1}^{o l d} = (N - α_{2}^{o l d} y_{2}) y_{1}

,则：

v_{1} - v_{2} = f (x_{1}) - f (x_{2}) - κ_{1, 1} N + κ_{1, 2} N + (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2}^{o l d} y_{2}

代入(5.5)：

\begin{matrix} (5.6) & \frac{\partial W (α_{2})}{\partial α_{2}} = - (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2}^{n e w} + (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2}^{o l d} + y_{2} (y_{2} - y_{1} + f (x_{1}) - f (x_{2})) \end{matrix}

令

η = κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}

，

E = f (x) - y

，则：

\frac{\partial W (α_{2})}{\partial α_{2}} = - η α_{2}^{n e w} + η α_{2}^{o l d} + y_{2} (E_{2} - E_{1}) = 0

\begin{matrix} (5.7) & α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η} \end{matrix}

这样我们就获得了新的

α_{2}

值，但是不要忘记，

α

是存在约束的：

0 \leq α \leq C

（图来自https://blog.csdn.net/u011734144/article/details/81233553）
当

y_{1} \neq y_{2}

时

α_{2}

的上下界为：

下界： $L = m a x (0, α_{2}^{o l d} - α_{1}^{o l d})$
上界： $H = m i n (C, C + α_{2}^{o l d} - α_{1}^{o l d})$

当 $y_{1} = y_{2}$ 时 $α_{2}$ 的上下界为：

下界： $L = m a x (0, α_{1}^{o l d} + α_{2}^{o l d} - C)$
上界： $H = m a x (C, α_{1}^{o l d} + α_{2}^{o l d})$
这样我们就能获得约束后的 $α_{2}^{n e w}$
$α_{2}^{n e w / c o n s t r a i n t} = {\begin{matrix} H & α_{2}^{n e w} > H \\ α_{2}^{n e w} & L \leq α_{2}^{n e w} \leq H \\ L & α_{2}^{n e w} < L \end{matrix}$
然后我们就可以根据 $α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} y_{2}$ 计算 $α_{1}^{n e w}$ 了：
$α_{1}^{n e w} = a l p h a_{1}^{o l d} + y_{1} y_{2} (a l p h a_{2}^{o l d} - a l p h a_{2}^{n e w})$
现在我们获取了新的 $α_{1}^{n e w}, α_{2}^{n e w}$ ,那么就可以更新b了，而我们只能根据 $y_{i} (ω^{T} x_{i} + b) = 1$ 来求b,这个等式成立的条件为 $x_{i}$ 是支持向量，即 $0 < α_{i} < C$ ，将 $α_{1}^{n e w}$ 代入上面的等式，两边同时乘以 $y_{1}$ ，有：
$\sum_{i = 1}^{m} α_{i} y_{i} κ_{i, 1} + b = y_{1}$
则b的值为：
$b_{1}^{n e w} = y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} κ_{i, 1} - α_{1}^{n e w} y_{1} κ_{1, 1} - α_{2}^{n e w} y_{2} κ_{1, 2}$
其中等式后面前两部分可以表示为：
$y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} κ_{i, 1} = - E_{1} + α_{1}^{o l d} y_{1} κ_{1, 1} + α_{2}^{o l d} y_{2} κ_{1, 2} + b^{o l d}$
那么最终 $b_{1}^{n e w}$ 可以表示为：
$b_{1}^{n e w} = b^{o l d} - E_{1} - y_{1} κ_{1, 1} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} κ_{1, 2} (α_{2}^{n e w} - α_{2}^{o l d})$
同理 $b_{2}^{n e w}$ 可以表示为
$b_{2}^{n e w} = b^{o l d} - E_{2} - y_{1} κ_{1, 2} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} κ_{2, 2} (α_{2}^{n e w} - α_{2}^{o l d})$
当 $b_{1}$ 和 $b_{2}$ 都有效时他们是相等的，即 $b_{1}^{n e w} = b_{2}^{n e w} = b_{n e w}$ ,当 $α_{1, 2}^{n e w} = 0$ 或C时SMO选择他们的中点作为新的阈值：
$b_{n e w} = \frac{b_{1}^{n e w} + b_{2}^{n e w}}{2}$

传送门

支持向量机（SVM）和python实现（一）https://blog.csdn.net/z962013489/article/details/82499063
支持向量机（SVM）和python实现（三）https://blog.csdn.net/z962013489/article/details/82622036