6.1 间隔与支持向量
引言
给定训练样本集
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
,
y
∈
{
−
1
,
+
1
}
D=\{(\boldsymbol x_i,y_i)\}_{i=1}^m,y\in\{-1,+1\}
D={(xi,yi)}i=1m,y∈{−1,+1}
分类学习最基本的想法就是在样本空间中找到一个划分超平面,将不同类别的样本分开:
能够将训练样本分开的划分超平面可能有很多(如上图),直观上两类样本正中间(加粗)的超平面的划分受样本局部扰动的影响最小,对未见示例的泛化能力最强。
划分超平面
在样本空间中,划分超平面
(
w
,
b
)
(\boldsymbol w,b)
(w,b)可以通过如下线性方程描述:
w
T
x
+
b
=
0
\boldsymbol w^{\text T}\boldsymbol x+b=0
wTx+b=0
其中
w
=
(
w
1
;
w
2
;
⋯
;
w
d
)
\boldsymbol w=(w_1;w_2;\cdots;w_d)
w=(w1;w2;⋯;wd)(
d
d
d为样本维数),为法向量,决定了超平面的方向。
显然,样本空间中点
x
\boldsymbol x
x到超平面
(
w
,
b
)
(\boldsymbol w,b)
(w,b)的距离为
r
=
∣
w
T
x
+
b
∣
∣
∣
w
∣
∣
r=\frac{|\boldsymbol w^{\text T}\boldsymbol x+b|}{||\boldsymbol w||}
r=∣∣w∣∣∣wTx+b∣
间隔与支持向量
为了方便计算,我们将
w
,
b
\boldsymbol w,b
w,b进行缩放变换,使得
∣
w
T
x
+
b
∣
≥
1
|\boldsymbol w^{\text T}\boldsymbol x+b|\geq1
∣wTx+b∣≥1,即
r
≥
1
∣
∣
w
∣
∣
r\geq\frac{1}{||\boldsymbol w||}
r≥∣∣w∣∣1.
并且规定:
{
w
T
x
i
+
b
≥
+
1
,
y
i
=
+
1
w
T
x
i
+
b
≤
−
1
,
y
i
=
−
1
\begin{cases} \boldsymbol w^{\text T}\boldsymbol x_i+b\geq +1,\quad y_i=+1\\ \boldsymbol w^{\text T}\boldsymbol x_i+b\leq -1,\quad y_i=-1 \end{cases}
{wTxi+b≥+1,yi=+1wTxi+b≤−1,yi=−1即
y
i
(
w
T
x
i
+
b
)
≥
1
y_i(\boldsymbol w^{\text T}\boldsymbol x_i+b)\geq 1
yi(wTxi+b)≥1距离超平面最近的几个样本点使上式等号成立,它们被称为支持向量。
两个异类支持向量到超平面的距离之和为
γ
=
2
∣
∣
w
∣
∣
\gamma=\frac{2}{||\boldsymbol w||}
γ=∣∣w∣∣2它被称为间隔。
支持向量机
要使得划分超平面位于两类样本的“正中间”,即要使间隔最大,也就是要找到参数 ( w ∗ , b ∗ ) = arg max ( w , b ) 2 ∣ ∣ w ∣ ∣ , s.t. y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , ⋯ , m (\boldsymbol w^*,b^*)=\underset{(\boldsymbol w,b)} {\arg\max}\ \frac2{||\boldsymbol w||},\ \text{s.t.}\ y_i(\boldsymbol w^{\text T}\boldsymbol x_i+b)\geq 1, \quad i=1,2,\cdots,m (w∗,b∗)=(w,b)argmax ∣∣w∣∣2, s.t. yi(wTxi+b)≥1,i=1,2,⋯,m等价于 ( w ∗ , b ∗ ) = arg min ( w , b ) 1 2 ∣ ∣ w ∣ ∣ 2 , s.t. y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , ⋯ , m (\boldsymbol w^*,b^*)=\underset{(\boldsymbol w,b)} {\arg\min}\ \frac12{||\boldsymbol w||}^2,\ \text{s.t.}\ y_i(\boldsymbol w^{\text T}\boldsymbol x_i+b)\geq 1, \quad i=1,2,\cdots,m (w∗,b∗)=(w,b)argmin 21∣∣w∣∣2, s.t. yi(wTxi+b)≥1,i=1,2,⋯,m这就是支持向量机(SVM)的基本型。