AdaBoost&GBDT（二）——vincen的学习笔记

回顾

篇(一)中详细介绍了AdaBoost的算法步骤，主要结论就是下面的算法图所述，方便回顾摆在这里。

上图中的 $D_{m,i}$ 即是上节中的 $\omega_{m,i}$ ，这点需要注意一下，下面关于AdaBoost性质的推导中，我将沿用 $D_{m,i}$ 这个我认为较为直观的符号。

训练误差上界

AdaBoost的训练误差可以写为 $\frac{1}{N}\sum_{i=1}^{N}I\{G(x_i)\neq y_i\}$ 的形式，下面给出直接给出其上界(证明见书)

Theorem 1
$\frac{1}{N}\sum_{i=1}^{N}I\{G(x_i)\neq y_i\}\leqslant \frac{1}{N}\sum_{i=1}^Nexp(-y_if(x_i)) = \prod_{m=1}^MZ_m$
Theorem 2
$\prod_{m=1}^MZ_m = \prod_{m=1}^M2\sqrt {e_m(1-e_m)}\overset{令\gamma_m = \frac{1}{2}-e_m}{=}\prod_{m=1}^M\sqrt{1-4\gamma_m^2}\leqslant exp(-2\sum_{m=1}^M\gamma_m^2)$
关于Theorem 2中最后一式的证明，在Taylor展开时不能忽略余项的影响，用Lagrange余项展开至二阶就有
$\begin{aligned} \prod_{m=1}^M\sqrt{1-4\gamma_m^2} &= \prod_{m=1}^M{1-2\gamma_m^2-\frac{2\gamma_m^4}{(1-\xi_1)^\frac{3}{2}}} \\ &\leqslant\prod_{m=1}^M{1-2\gamma_m^2+2\gamma_m^4e^{\xi_2}} \\ &=exp(-2\sum_{m=1}^M\gamma_m^2) \end{aligned}$
Corollary

若存在 $\gamma$ ，满足 $\gamma \leqslant \gamma_m(m = 1,2,\ldots,M)$ ,则有
$\frac{1}{N}\sum_{i=1}^NI\{G(x_i)\neq y_i\} \leqslant exp(-2M\gamma^2)$

这个推论是Theorem 1与Theorem 2的直接推论，揭示了AdaBoost训练出的强分类器的误差率与弱分类器误差率之间的关系，若弱分类器带权分类错误率 $e_m$ 的上界 $e\downarrow$ ,则由 $\gamma = \min_m(\frac{1}{2} - e_m)=\frac{1}{2}-e$ 可知 $\gamma\uparrow$ ,造成强分类器的训练误差上界 $exp(-2M\gamma^2)\downarrow$ ,这意味着若我们通过一些方式(比如调整基分类器超参数或更换基分类器的学习算法)能达到使 $e\downarrow$ 的效果，则强分类错误率的上界会随着 $e$ 的减小以指数速率下降，这是AdaBoost的一个重要且良好的性质。

AdaBoost加法模型与前向分步算法角度

这一部分的主要目的是从AdaBoost入手去理解了前向分步算法的步骤，以便于理解后面GBDT的算法步骤。

加法模型(additive model)与前向分步算法(forward stagewise algorithm)

对加法模型
$f(x) = \sum_{m=1}^M\beta_mb(x;\gamma_m)$
$b(x,\gamma_m)是基模型,\gamma_m是基模型参数，\beta_m是基模型的系数$

所构建的损失函数
$\min_{\beta_m,\gamma_m}\sum_{i=1}^NL(y_i,\sum_{m=1}^M\beta_mb(x_i;\gamma_m))$

是一个很复杂的优化问题，前向分步算法将其拆分为一个 $M$ 步的简单优化问题，每次只学习一个基模型与其系数，与向前逐步回归的思想有些类似。

我将其制作成伪代码的形式贴在这里。
AdaBoost&GBDT（二）——vincen的学习笔记

说完加法模型和前向分步算法后，下面着重解析AdaBoost前向分步算法的形式

AdaBoost前向分步算法

书上以如下定理的形式给出

Theorem 3 $\quad$ AdaBoost是由基本分类器组成的加法模型，损失函数是指数损失函数，且在每一步进行权值归一化的前向分步算法的特例。

proof.

首先，AdaBoost的形式为 $f(x) = \sum_{m=1}^M\alpha_mG_m(x)$
他显然是一个由基分类器组成的加法模型。

当损失函数设置为指数损失函数时
$L(y,f(x)) = exp[-yf(x)]$

由上面前向分步算法的流程，第 $m$ 步的优化目标如下
$(\alpha_m,G_m(x)) = arg\min_{\alpha,G}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x_i)+\alpha G(x_i))]$

这里我们注意到第 $m$ 步优化时, $f_{m-1}$ 是已知的，则有
$\begin{aligned} (\alpha_m,G_m(x)) &= arg\min_{\alpha,G}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x_i)+\alpha G(x_i))] \\ &=arg\min_{\alpha,G}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x_i)]exp[-y_i\alpha G(x_i)] \\ 记\overline{\omega}_{mi}=exp[-y_i(f_{m-1}(x_i)],有 \\ &=arg\min_{\alpha,G}\sum_{i=1}^N\overline{\omega}_{mi}exp[-y_i\alpha G(x_i)] \\ &=arg\min_{\alpha,G}\sum_{T}\overline{\omega}_{mi}e^{-\alpha} + \sum_{F}\overline{\omega}_{mi}e^{\alpha} \\ \end{aligned}$
其中 $T，F$ 分别代表 $G(x)$ 分类正确与错误的那些样本，分类正确的样本具有特征 $G(x_i) = y_i$ ,分类错误的样本具有特征 $G(x_i) \neq y_i$ ,而在 $\alpha > 0$ 的限制下，有 $e^{\alpha} >e^{-\alpha}$ ;再加上 $\overline{\omega}_{mi} = exp[-y_if_{m-1}(x_i)] > 0$ 这一条信息，使上式达到最小的 $G^*_m$ 应使分类错误的样本权值和最小，故 $G^*_m$ 形式为
$G^*_m =arg\min_G\sum_{i=1}^N\overline{\omega}_{mi}I\{y_i \neq G(x_i)\}$
下求最优的 $\alpha$ ，承接上式
$\begin{aligned} \sum_{i=1}^Nexp[-y_i\alpha G(x_i)] &=\sum_{T}\overline{\omega}_{mi}e^{-\alpha} + \sum_{F}\overline{\omega}_{mi}e^{\alpha} \\ &=\sum_{T}\overline{\omega}_{mi}e^{-\alpha} +\sum_{F}\overline{\omega}_{mi}e^{-\alpha} - \sum_{F}\overline{\omega}_{mi}e^{-\alpha} + \sum_{F}\overline{\omega}_{mi}e^{\alpha} \\ &= e^{-\alpha}\sum_{i=1}^N\overline{\omega}_{mi} + (e^{\alpha}-e^{-\alpha})\sum_F\overline{\omega}_{mi} \end{aligned}$
记上式为 $L$ ,并对 $\alpha$ 求导，令导数为0，
$\begin{aligned} \frac{\partial{L}}{\partial{\alpha}} &= -e^{-\alpha}\sum_{i=1}^N\overline{\omega}_{mi} + (e^{\alpha}+e^{-\alpha})\sum_F\overline{\omega}_{mi} \\ &=-e^{-\alpha}\sum_{T}\overline{\omega}_{mi}+e^{\alpha}\sum_F\overline{\omega}_{mi} = 0 \\ \end{aligned}$
最终得如下 $\alpha^*$
$\begin{aligned} \alpha^* &= \frac{1}{2}log\frac{\sum_T\overline{\omega}_{mi}}{\sum_F\overline{\omega}_{mi}} \\ &=\frac{1}{2}log\frac{\sum_T\overline{\omega}_{mi}/\sum_{i=1}^N\overline{\omega}_{mi}}{\sum_F\overline{\omega}_{mi}/\sum_{i=1}^N\overline{\omega}_{mi}} \end{aligned}$
记 $e_m = \frac{\sum_F\overline{\omega}_{mi}}{\sum_{i=1}^N\overline{\omega}_{mi}}$ ,则 $\frac{\sum_T\overline{\omega}_{mi}}{\sum_{i=1}^N\overline{\omega}_{mi}} = 1-e_m$ ,这里应注意 $e_m$ 与前面AdaBoost算法中的 $e_m$ 的意义都是带权错误率，且此处的 $e_m$ 亦属于 $[0,1]$ 。

则 $\alpha^*$ 的形式变为
$\alpha^*_m = \frac{1}{2}log\frac{1-e_m}{e_m}$
至于样本权重更新公式，由 $f_m(x) = f_{m-1}(x)+\alpha_mG_m(x)$ ，知
$\begin{aligned} \overline{\omega}_{m+1,i} &= exp[-y_if_m(x_i)] \\ & = exp[-y_if_{m-1}(x)-y_i\alpha_mG_m(x)] \\ & = exp[-y_if_{m-1}(x)]exp[-y_i\alpha_mG_m(x)] \\ & = \overline{\omega}_{mi}exp[-y_i\alpha_mG_m(x)] \end{aligned}$

可以看到只相差一个规范化因子，若我们在每一步中加入规范化权值这一步，则开始由 $f_0 = 0$ 知 $\overline{\omega}_{1i} = 1$ ,规范化后即是 ${\omega}_{1i} = \frac{1}{N}$ ,其后由上面推理可知, $e_m,\alpha_m,G_m(x)$ 的更新方式完全相同。

于是AdaBoost是在每一步归一化权值的前向分步算法。