【机器学习】支持向量机（1）——基础知识

前言

本篇主要介绍一些支持向量机用到的概念，这些是学习支持向量机算法的基础，以便更好的理解算法的求解方法。

划分超平面

首先，我们先看看下图：

假定给定数据如上图，圆的为正类，方的为负类，要想通过一个划分超平面（这里是二维，所以是条直线）将不同类别的样本分开。从图中我们就可以看出，能将训练样本分开的划分超平面可能有很多，但是我们应该去选择哪一个呢？

直观上，我们应该选择中间红色的那个，因为它对于训练样本局部扰动的“容忍”性最好，比如，训练集外的样本可能比图中的样本更接近两类的划分超平面，这将使许多划分超平面出现错误，而红色的超平面受到的影响是最小的，也就是说，这个划分超平面的分类结果是最鲁棒的，对未知示例的泛化能力最强。

找出这个划分超平面就成了关键，之前我们介绍的感知机也是寻找这个超平面，将训练集划分开，但是感知机利用误分类最小的策略，求得划分超平面，而且解有无穷多个（关于感知机相关的可以点击查看）；在所有的划分超平面中，有一个平面是最好的，它可以尽可能地让所有的样本点都离该划分超平面最远，这就是SVM要做的。

这个划分超平面，可以通过如下的线性方程来描述：

w^{T} x + b = 0

其中 $w = (w_{1}; w_{2}; . . .; w_{d})$ 为法向量，决定了超平面的方向； $b$ 为移位项，决定了超平面与原点之间的距离。

函数间隔

如图，有三个实例 $A, B, C ，$ 均在划分超平面的正类一侧，预测它们的类，点 $A$ 距离超平面较远，若预测为正类，就比较确信预测是正确的；点 $C$ 距离超平面较近，若预测为正类就不那么确信了；点 $B 介于 A, C$ 之间，预测其为正类的确信度也在 $A, C$ 之间。

一般来说，一个点距离超平面的远近可以相对地表示分类预测的确信程度。

我们注意到：当一个点 $x$ 被正确预测时，那么 $w x + b$ 的符合与类标记 $y$ 的符合相同。

所以可用 $y (w \cdot x + b)$ 来表示分类的正确性及确信度。

对于给定的训练数据集 $T$ 和超平面 $(w, b)$ ：
（1）定义超平面 $(w, b)$ 关于样本点 $(x_{i}, y_{i})$ 的函数间隔为：

δ_{i} = y_{i} (w \cdot x_{i} + b)

（2）定义超平面 $(w, b)$ 关于训练数据集 $T$ 的函数间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $(x_{i}, y_{i})$ 的函数间隔之最小值，即：

δ = min_{i = 1, 2, . . ., N} δ_{i}

函数间隔可以表示分类预测的正确性和确信度

点到超平面距离（几何间隔）

样本空间中任意点 $x$ 到超平面 $(w, b)$ 的距离可写为：

r = \frac{| w^{T} x + b |}{| | w | |}

补充：

点 $x_{0}$ 到超平面 $S : w x + b = 0$ 的距离 $d$ :

设 $x_{0}$ 在 $S$ 上面的投影为 $x_{1}$ ，则 $w x_{1} + b = 0$ ；
由向量 $\vec{x_{0} x_{1}}$ 与 $S$ 平面的法向量平行；
$| w \cdot \vec{x_{0} x_{1}} | = \sqrt{(w^{1})^{2} + (w^{2})^{2} + . . . + (w^{N})^{2}} d = | | w | | d$
$| | w | | 为 L_{2} 范数$
又：
$w \cdot \vec{x_{0} x_{1}} = w^{1} (x_{0}^{1} - x_{1}^{1}) + w^{2} (x_{0}^{2} - x_{1}^{2}) + . . . + w^{N} (x_{0}^{N} - x_{1}^{N})$
$= w^{1} x_{0}^{1} + w^{2} x_{0}^{2} + . . . + w^{N} x_{0}^{N} - (w^{1} x_{1}^{1} + w^{2} x_{1}^{2} + . . . + w^{N} x_{1}^{N})$
又有： $w \cdot x + b = 0$
$= w^{1} x_{0}^{1} + w^{2} x_{0}^{2} + . . . + w^{N} x_{0}^{N} - (- b)$
故：
$| | w | | d = | w \cdot x_{0} + b |$
$d = \frac{| w \cdot x_{0} + b |}{| | w | |}$

对于给定的训练数据集 $T$ 和超平面 $(w, b)$ ：
（1）定义超平面 $(w, b)$ 关于样本点 $(x_{i}, y_{i})$ 的几何间隔为：

γ_{i} = y_{i} (\frac{w}{| | w | |} \cdot x_{i} + \frac{b}{| | w | |})

（2）定义超平面 $(w, b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $(x_{i}, y_{i})$ 的几何间隔之最小值，即：

γ = min_{i = 1, 2, . . ., N} γ_{i}

几何间隔与函数间隔的关系：
$γ = \frac{δ}{| | w | |}$

支持向量

训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量，即图中在黑色线上的实例点。

拉格朗日对偶性

在约束最优化问题中，常常利用拉格朗日对偶性将原始问题转化为对偶问题。通过求解对偶问题而得到原始问题的解。

支持向量机和最大熵模型都用用到，下面我们来简单介绍下拉格朗日对偶性的主要概念和结果。

1.原始问题：

假设 $f (x) ， c_{i} (x) ， h_{j} (x)$ 是定义在 $R^{n}$ 上的连续可微函数，考虑约束最优化问题：

min_{x \in R^{n}} f (x)

s . t . c_{i} (x) ⩽ 0 ， i = 1, 2, . . ., k

h_{j} (x) = 0 ， j = 1, 2, . . ., l

称此约束最优化问题为原始最优化问题或原始问题。

首先，引进广义拉格朗日函数：

L (x, α, β) = f (x) + \sum_{i = 1}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{k} β_{j} h_{j} (x)

这里， $x = (x^{(1)} ， x^{(2)} ，。。。， x^{(n)})^{T} \in R^{n} ， α_{i} ， β_{j}$ 是拉格朗日乘子， $α_{i} ⩾ 0$ 。

那么原始问题就是：

θ_{p} (x) = max_{α, β : α_{i} ⩾ 0} L (x, α, β)

假设给定某个 $x$ ，如果 $x$ 违反了约束条件，即存在某个 $i$ 使得 $c_{i} (w) > 0$ 或者存在某个 $j$ 使得 $h_{j} (w) \neq 0$ ，那么就有：

θ_{p} (x) = max_{α, β : α_{i} ⩾ 0} L (x, α, β) = + \infty

因为若某个 $i$ 使得 $c_{i} (w) > 0$ ，则可令 $α_{i} \to + \infty,$ 若某个 $j$ 使得 $h_{j} (w) \neq 0$ ，则可令 $β_{j}$ 使 $β_{j} h_{j} (x) \to + \infty$ ，而其余各 $α_{i}, β_{j}$ 均为0
相反地，如果满足约束条件，则 $θ_{p} (x) = f (x)$

综上：

θ_{p} (x) = {\begin{cases} f (x), & x 满 足 原 始 问 题 约 束 \\ + \infty, & 其 他 \end{cases}

所以，如果考虑极小化问题

min_{x} θ_{p} (x) = min_{x} max_{α, β : α_{i} ⩾ 0} L (x, α, β)

它与原始问题最优化问题等价的，即他们有相同的解。这也称为广义拉格朗日函数的极小极大问题。

2.对偶问题：
定义：

θ_{D} (α, β) = min_{x} L (x, α, β)

再考虑极大化

θ_{D} (α, β) = min_{x} L (x, α, β)

，即

max_{α, β : α_{i} ⩾ 0} θ_{D} (α, β) = max_{α, β : α_{i} ⩾ 0} min_{x} L (x, α, β)

此称为广义拉格朗日函数的极大极小问题。

可以将广义拉格朗日函数的极大极小问题表示为约束最优化问题：

max_{α, β} θ_{D} (α, β) = max_{α, β} min_{x} L (x, α, β)

s . t . α_{i} ⩾ 0 ， i = 1, 2, . . ., k

称为原始问题的对偶问题。

支持向量机

支持向量机（support vector machines，SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，支持向量机的学习策略就是间隔最大化，可形式化为求解凸二次规划的问题。

支持向量机还包括核技巧，这使它成为实质上的非线性分类器。

支持向量机学习方法包含构建由简至繁的模型：线性可分支持向量机、线性支持向量机、非线性支持向量机，简单模型是复杂模型的基础，也是复杂模型的特殊情况。

当训练数据集线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；
当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性分类器，即线性支持向量机；
当训练数据不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

注：
本篇博客，重在让大家了解支持向量机，至于具体的模型，将在后面的博客中给出。
参考书籍《机器学习》、《统计学习方法》