集成学习（一）：AdaBoost原理

前言

AdaBost算法是Boosting族算法最著名的代表。这一族算法的工作机制也是很类似的：先从初始训练集训练处一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续收到更多关注，然后基于调整之后的的样本分布来训练下一个基学习器；日此往复，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权组合。
由于这里重点介绍的是AdsBoost算法，接下来就将介绍其原理和算法步骤。

1. 算法原理

这里讲解AdaBoost算法的推导，使用的是“加性模型”，既基学习器的线性组合

H (x) = \sum t = 1 T α t h t (x)

其中，ht(x)是代表一个基学习器，αt是代表权重。然后定义最小化指数损失函数

L e x p (H | D) = E x D [e - f (x) H (x)]

其中D代表的是两个分类，这里使用的是±1表示。在AdaBoost算法中，第一个基分类器h1是通过直接将基学习算法用于初始数据分布而得；伺候迭代地生成ht和αt，当基分类器ht基于分布Dt产生后，该及分类器的权重αt应使得αtht最小化指数函数

L e x p (α t h t) = E x D t [e - f (x) α t h t (x)] = E x D t [e - α t Π (f (x) = h t (x)) + e α t Π (f (x) \neq h t (x))] = e - α t P x D t (f (x) = h t (x)) + e α t P x D t (f (x) \neq h t (x)) = e - α t (1 - ϵ t) + e α t ϵ t

其中ϵt=Px Dt(ht(x)≠f(x))，也就是分类错误率。在对指数损失函数求偏导得到

\partial L e x p (α t h t | D t) \partial α t = - e α t (1 - ϵ t) + e α t ϵ t

令偏导数为零，得到

α t = 12 l n (1 - ϵ t ϵ t)

AdaBoost
算法在获得Ht−1之后仰恩分布将进行调整，使下一轮的基学习器ht能够修成Ht−1的错误。理想的ht能修正Ht−1的全部错误，既最小化

L e x p (H t - 1 + h t | D) = E x D [e - f (x) (H t - 1 (x) + h t (x))] = E x D [e - f (x) (H t - 1 (x)) e - f (x) h t (x)]

由于f2(x)=h2(x)=1，上面式子中的e−f(x)ht(x)的泰勒展开近似为

L e x p (H t - 1 + h t | D) ≃ E x D [e - f (x) (H t - 1 (x)) (1 - f (x) h t (x) + f 2 (x) h 2 t (x) 2] = E x D [e - f (x) (H t - 1 (x)) (1 - f (x) h t (x) + 12]

在最优化的过程中是最小化指数损失函数

h t (x) = a r g min h L e x p (H t - 1 (x) + h t | D) = a r g min h E x D [e - f (x) (H t - 1) (x) (1 - f (x) h t (x) + 12] = a r g max h E x D [e - f (x) (H t - 1 (x)) f (x) h t (x)] = a r g max h E x D [e - f (x) H t - 1 (x) E x D [e - f (x) H t - 1 (x)] f (x) h t (x)]

注意到Ex D[e−f(x)Ht−1(x)]是一个常数。令Dt表示一个分布

D t (x) = D (x) e - f (x) H t - 1 (x) E x D [e - f (x) H t - 1 (x)]

则根据数学期望的定义，这等价于令

h t (x) = a r g max h E x D [e - f (x) H t - 1 (x) E x D [e - f (x) H t - 1 (x)] f (x) h t (x)] = a r g max h E x D t [f (x) h t (x)]

由f(x)，h(x)∈−1,+1，有

f (x) h (x) = 1 - 2 Π (f (x) \neq f (x))

则

h t (x) = a r g min h E x D t [Π (f (x) \neq f (x))]

Dt于Dt+1的关系有

D t + 1 = D (x) e - f (x) H t (x) E x D [e - f (x) H t (x)] f (x) h t (x)] = D (x) e - f (x) H t - 1 (x) e - f (x) α t h t (x) E x D [e - f (x) H t (x)] = D t (x) e - f (x) α t h t (x) E x D [e - f (x) H t - 1 (x)] E x D [e - f (x) H t (x)]

这里从基于加性模型迭代式，优化指数损失函数的角度推导了AdaBoost算法。

2. 算法步骤

集成学习（一）：AdaBoost原理

3. 参考

机器学习——周志华
统计学习方法——李航