精细解说机器学习模型：XGBoost模型

这篇应该是你见过的讲xgboost的文章里最细的。

简单介绍

首先需要介绍GBDT，它是一种基于boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪的学习，每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。

在核心思想不变的情况下，XGBoost对GBDT进行了一系列优化，主要是损失函数进行了二阶泰勒展开，另外还有目标函数加入正则项、支持并行和默认缺失值处理等，在可扩展性和训练速度上有了巨大的提升。

模型核心思想

Boosting提升方法
使用二阶泰勒展开来近似拟合残差：相对于GBDT的一阶导数，XGBoost采用二阶泰勒展开，可以更为精准的逼近真实的损失函数
贪婪方法分裂节点

模型前提设定

训练数据集 $D=\{\left(x_i,y_i\right)\}_{i=1}^{n}$ ，其中 $x_i\in\mathbb{R}^m,y_i\in\mathbb{R}$ 。又有实例 $x$ 。

01 - 单棵决策树模型表示方法

假设某棵决策树有 $T$ 个叶子节点，则单棵决策树模型可记为：
$f(x)=w_{q(x)}$
其中 $q:\mathbb{R}^m\to \{1,\dots,T\}$ 是由输入 $x$ 向叶子节点编号的映射，其本质是树的分支结构；而 $w\in\mathbb{R}^T$ 是叶子权重向量。

精细解说机器学习模型：XGBoost模型

例如实例 $x$ 落在了决策树的第 $j$ 个节点，则其输出值即为 $w_j$ 的值。而叶子节点向量即为
$w=(w_1,\cdots,w_j,\cdots,w_T)$

02 - 加法模型结构

使用 $\text{Boosting}$ 思想，对于实例 $x$ ，总模型的预测输出为
$\hat{y}=\phi\left(x\right)=\sum_{k=1}^K f_k\left(x\right)$
其中， $f_k\left(x\right)$ 为第 $k$ 棵决策树。

核心生成原理

03 - XGBoost的正则化目标函数及其变量解释

$XGBoost$ 的正则化目标函数由损失函数和正则化项两部分组成，定义如下：
$L=\sum_{i=1}^nl(y_i,\hat y_i)+\sum_{k=1}^K \Omega(f_k)$
以下逐一解释各个参数：

$l$ 表示损失函数。由于模型将使用二阶泰勒展开，因此要求损失函数一阶和二阶可导。常见的损失函数有：
- 用于回归的平方损失函数： $l(y,\hat y)=(y-\hat y)^2$
- 用于分类的逻辑回归损失函数： $l(y,\hat y)=y\ln(1+e^{-\hat y})+(1-y)\ln(1+e^{\hat y})$
$\hat y_i$ 表示第 $i$ 个样本 $x_i$ 的预测值。作为加法模型，预测得分是每棵树打分的累加之和：
$\hat y_i=\sum_{k=1}^K f_k(x_i),f_k \in \mathcal F$
如上式，此模型中共有 $k$ 棵树， $f_k$ 为第 $k$ 棵树的函数（模型）。
$\Omega(f)$ 为单棵数的复杂度。模型将全部 $k$ 棵树的复杂度进行求和，添加到目标函数中作为正则化项，以防止模型过拟合：
$\sum_{k=1}^K \Omega(f_k)$

04 - 学习第 $t$ 棵树

假设在第 $t$ 轮，也是生成第 $t$ 棵树时，要训练的树模型为 $f_t$ ，则在第 $t$ 轮迭代后，实例 $x$ 的预测结果 $\hat y^{(t)}$ 为：
$\hat y^{(t)}=\sum_{k=1}^t f_k(x)=\hat y^{(t-1)}+f_t(x)$
公式中 $\hat y^{(t-1)}$ 为前 $t-1$ 棵树的预测结果。

注意，在第 $t$ 轮迭代时，前 $t-1$ 棵树已知，因此 $\hat y^{(t-1)}$ 也是一个已知常量。

将上式代入模型的基本目标函数，得到第 $t$ 轮的目标函数为
$\begin{aligned} L^{(t)} &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t)}\right)+\sum_{k=1}^{t} \Omega\left(f_{k}\right) \\ & = \sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)+\Omega\left(f_{t}\right)+\text { constant } \end{aligned}$
后半部分同理。因为在第 $t$ 轮迭代时，前 $t-1$ 棵树已知，因此前 $t-1$ 棵树的复杂度都是已知常量，可以记为 $\text{constant}$ ：
$\sum_{k=1}^{t} \Omega\left(f_{k}\right)=\Omega\left(f_{t}\right)+\sum_{k=1}^{t-1} \Omega\left(f_{k}\right)=\Omega\left(f_{t}\right)+\text { constant }$
而 $y_i$ 为已知标签，因此在第 $t$ 轮的目标函数中，只有唯一的变量，即第 $t$ 棵树 $f_t$ 。

因为常量不影响目标函数的优化，我们去除常量，得到第 $t$ 轮的目标函数为
$L^{(t)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)+\Omega\left(f_{t}\right)$

05 - 泰勒公式及目标函数的泰勒展开

泰勒公式是 $\text {XGBoost}$ 模型的核心要点之一，也是核心亮点。相比较于 $\text{GBDT}$ 模型，二阶泰勒展开逼近更加有效。

泰勒公式是将一个在 $x=x_0$ 处具有 $n$ 阶导数的函数 $f(x)$ 利用 $(x-x_0)$ 的 $n$ 次多项式来逼近函数的方法。

泰勒公式形式众多，从本文的实用角度出发，采用以下形式的泰勒公式的二阶展开形式：
$f(x+\Delta x) \simeq f(x)+f^{\prime}(x) \Delta x+\frac{1}{2} f^{\prime \prime}(x) \Delta x^{2}$
第 $t$ 轮目标函数 ${L}^{\left(t\right)}$ 在 $\hat{y_i}^{\left(t-1\right)}$ 处的二阶泰勒展开为
$\begin{aligned} {L}^{(t)} &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)+\Omega\left(f_{t}\right)\\& \simeq \sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y_i}^{(t-1)}\right)+\partial_{\hat{y_i}^{(t-1)}} l\left(y_{i}, \hat{y_i}^{(t-1)}\right) f_{t}\left({x}_{i}\right)+\frac{1}{2} \partial_{\hat{y_i}^{(t-1)}}^{2} l\left(y_{i}, \hat{y_i}^{(t-1)}\right) f_{t}^{2}\left({x}_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y_i}^{(t-1)}\right)+g_{i} f_{t}\left({x}_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left({x}_{i}\right)\right]+\Omega\left(f_{t}\right) \end{aligned}$
其中 $g_{i}=\partial_{\hat{y_i}^{(t-1)}} l\left(y_{i}, \hat{y_i}^{(t-1)}\right)$ ， $h_{i}=\partial_{\hat{y_i}^{(t-1)}}^{2} l\left(y_{i}, \hat{y_i}^{(t-1)}\right)$

以下逐步解释：

形式。比较我们选择的泰勒公式的形式与损失函数的形式
$l\left(y, \hat{y}^{(t-1)}+f_{t}\left(x\right)\right)$
上节已经说过， $y_i$ 和 $\hat y^{(t-1)}$ 为都为常数，相当于 $x$ ；而第 $t$ 棵树 $f_t$ 不确定，相当于 $\Delta x$ 。
偏导。求和中的每一项都对本项的 $\hat y_{i}^{(t-1)}$ 求偏导，如果使用以下记号来标记损失函数 $l$ 关于 $\hat y_{i}^{(t-1)}$ 的一阶偏导和二阶偏导
$g_{i}=\partial_{\hat{y}^{(t-1)}} l\left(y_{i}, \hat{y}^{(t-1)}\right), \quad h_{i}=\partial_{\hat{y}^{(t-1)}}^{2} l\left(y_{i}, \hat{y}^{(t-1)}\right)$
那么，将每一项的损失函数在 $\hat y_{i}^{(t-1)}$ 处泰勒二阶展开，则得下式：
$l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)\simeq l(y_i,\hat y_i^{(t-1)})+g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)$
常数。 $l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)$ 是前 $t-1$ 棵树对此项带来的损失，因此是常数；在这一轮中，因为 $g_{i}$ 和 $h_{i}$ 已经是上一轮的产物，因此也是常数。

如果再次去掉所有常数项，将得到
$L^{(t)} \simeq \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)$
其中 $g_{i}=\partial_{\hat{y_i}^{(t-1)}} l\left(y_{i}, \hat{y_i}^{(t-1)}\right)$ ， $h_{i}=\partial_{\hat{y_i}^{(t-1)}}^{2} l\left(y_{i}, \hat{y_i}^{(t-1)}\right)$ 。

06 - 定义树的复杂度

我们使用两个部分来定义一棵树 $f_t$ 的复杂度：

叶子节点的数量 $T$
叶子节点权重向量 $w$ 的 $L_2$ 范数

即：
$\Omega\left(f_{t}\right)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$ 其中 $\gamma$ 和 $\lambda$ 都是超参数。

精细解说机器学习模型：XGBoost模型

07 - 根据叶子节点重组累加

设属于第 $j$ 个叶子节点的所有样本下标的集合为
$I_{j}=\left\{i | q\left(x_{i}\right)=j\right\}$
使用此种表示方法，参考模型前提设定，可将目标函数改换为按照叶子节点累加的形式
$\begin{aligned}L^{(t)} & \simeq \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n}\left[g_{i} w_{q\left(x_{i}\right)}+\frac{1}{2} h_{i} w_{q\left(x_{i}\right)}^{2}\right]+\lambda \frac{1}{2} \sum_{j=1}^{T} w_{j}^{2}+\gamma T \\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T\\ &=\sum_{j=1}^{T}\left[G_{j} w_{j}+\frac{1}{2}\left(H_{j}+\lambda\right) w_{j}^{2}\right]+\gamma T\end{aligned}$
其中
$G_{j}=\sum_{i \in I_{j}} g_{i} \quad H_{j}=\sum_{i \in I_{j}} h_{i}$
到此，对目标函数的化简结束。
以下逐行解释：

第二行将正则化项引入，同时，将 $f_t(x_i)$ 改写为 $w_{q(x_i)}$ ，以便于下一行改换为按照节点累加的形式。
第三行将按照样本累加改换为按照节点累加。
- 首先，累加的都是下标。原来按照样本下标累加，改换为按照叶子节点下标累加。将 $f_t(x_i)$ 改写为 $w_{q(x_i)}$ ，也是为了适应叶子节点下标的累加写法以改写成 $w_j$ 。
- 其次，如果按照叶子节点累加，那么在同一个叶子节点 $j$ 中的样本的输出值都是一样的，也就是其在权重向量 $w$ 中对应的权重值 $w_j$ ，因此原来的 $w_{q(x_i)}$ 也可直接改写成 $w_j$ ， $x_i$ 彻底消失。
- 再次，因为每个样本的 $g_i$ 和 $h_i$ 都是不同的，而且外层的累加使用叶子节点使用下标标记 $i$ ，因此这里需要使用 $I_{j}$ 来再次叠加。
- 最后，如果中括号中的 $w_{q(x_i)}$ 都直接改写成 $w_j$ ，则可将其与树复杂度的第一项组合起来，得到中括号中的第二项。
第四行引入新的记号。 $G_j$ 和 $H_j$ 分别是叶子节点 $j$ 中样本的一阶偏导和二阶偏导累加之和，都是常量。
目标函数中只有权重向量 $w$ 中的各个权重值为未知量。

08 - 参数学习

将目标函数作为各个 $w_j$ 的二次凸函数来求解 $w_j^*$
$w_{j}^{*}=\underset{w_{j}}{\arg \min }{{L}}^{(t)}$
令 $L^{(t)}$ 对 $w_{j}$ 求偏导，并令其等于零
$\frac{\partial L^{(t)}}{\partial w_j}=G_j+(H_j+\lambda)w_j=0$
解得每个叶子节点的权重值为
$w_{j}^{*}=-\frac{G_{j}}{H_{j}+\lambda}$
代入即得最优化的目标函数值
$L^{(t)*}=-\frac{1}{2} \sum_{j=1}^{T} \frac{G_{j}^{2}}{H_{j}+\lambda}+\gamma T$
也可使用二次函数求顶点坐标的方法求得。

精细解说机器学习模型：XGBoost模型

核心生长细节

09 - 如何分裂节点

在实际训练的第 $t$ 轮，模型都使用贪心法进行树节点的分裂：

对树中的每个叶子结点尝试进行分裂；
每次分裂后，原来的一个叶子结点继续分裂为左右两个子叶子结点，原叶子结点中的样本集将根据该结点的判断规则分散到左右两个叶子结点中；
新分裂一个结点后，我们需要检测这次分裂是否会给损失函数带来增益，增益的定义如下：
$\begin{aligned} L_{\text {split}} &=L_{L+R}-\left(L_{L}+L_{R}\right) \\ &=\left[-\frac{1}{2} \frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}+\gamma\right]-\left[-\frac{1}{2}\left(\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}\right)+2 \gamma\right] \\ &=\frac{1}{2}\left[\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}\right]-\gamma \end{aligned}$
如果 $L_{\text {split}}>0$ ，或者大于设定的阈值，即分裂后目标函数值下降了，那么可以考虑此次分裂的结果。

10 - 如何寻找最佳分裂点

但是一般都是有多个候选分割点，寻找最佳分割点的理论最佳步骤如下：

遍历每个结点的每个特征；
对每个特征，按特征值大小将特征值排序；
线性扫描，找出每个特征的最佳分裂特征值；
在所有特征中找出最好的分裂点，即分裂后增益最大的特征及特征值

以上为全局扫描法，是一种贪心的方法，每次进行分裂尝试都要遍历一遍全部候选分割点，但不适用数据量过大的条件，如内存无法一次载入或者分布式的情况。

基于此，XGBoost提出了一系列加快寻找最佳分裂点的方案：

特征预排序+缓存：XGBoost在训练之前，预先对每个特征按照特征值大小进行排序，然后保存为block结构，后面的迭代中会重复地使用这个结构，使计算量大大减小。
分位点近似法：对每个特征按照特征值排序后，采用类似分位点选取的方式，仅仅选出常数个特征值作为该特征的候选分割点，在寻找该特征的最佳分割点时，从候选分割点中选出最优的一个。
并行查找：由于各个特性已预先存储为block结构，XGBoost支持利用多个线程并行地计算每个特征的最佳分割点，这不仅大大提升了结点的分裂速度，也极利于大规模训练集的适应性扩展。

11 - 如何停止生长

一棵树不会一直生长下去，除了决策树基础的下面是一些常见的限制条件。

设定分裂阈值，当新引入的一次分裂所带来的增益 $L_{\text {split}}$ 小于阈值时，放弃当前的分裂。
当树达到最大深度时，停止建树，因为树的深度太深容易出现过拟合，这里需要设置一个超参数 max_depth
当引入一次分裂后，重新计算新生成的左、右两个叶子结点的样本权重和。如果存在一个叶子结点的样本权重低于某一个阈值，也会放弃此次分裂。这涉及到一个超参数：最小样本权重和，是指如果一个叶子节点包含的样本数量太少也会放弃分裂，防止树分的太细，这也是过拟合的一种措施。

外围技术简介

12 - XGBoost为什么可以并行训练

XGBoost的并行，并不是说每棵树可以并行训练，XGB本质上仍然采用boosting思想，每棵树训练前需要等前面的树训练完成才能开始训练。XGBoost的并行，指的是特征维度的并行：在训练之前，每个特征按特征值对样本进行预排序，并存储为Block结构，在后面查找特征分割点时可以重复使用，而且特征已经被存储为一个个block结构，那么在寻找每个特征的最佳分割点时，可以利用多线程对每个block并行计算。

13 - XGBoost为什么快

分块并行：训练前每个特征按特征值进行排序并存储为Block结构，后面查找特征分割点时重复使用，并且支持并行查找每个特征的分割点
候选分位点：每个特征采用常数个分位点作为候选分割点
CPU cache 命中优化：使用缓存预取的方法，对每个线程分配一个连续的buffer，读取每个block中样本的梯度信息并存入连续的Buffer中。
Block 处理优化：Block预先放入内存；Block按列进行解压缩；将Block划分到不同硬盘来提高吞吐

14 - XGBoost防止过拟合的方法

目标函数添加正则项：叶子节点个数+叶子节点权重的L2正则化
列抽样：训练的时候只用一部分特征（不考虑剩余的block块即可）
子采样：每轮计算可以不使用全部样本，使算法更加保守
shrinkage: 可以叫学习率或步长，为了给后面的训练留出更多的学习空间

15 - XGBoost如何处理缺失值

在特征k上寻找最佳 split point 时，不会对该列特征 missing 的样本进行遍历，而只对该列特征值为 non-missing 的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找 split point 的时间开销。
在逻辑实现上，为了保证完备性，会将该特征值missing的样本分别分配到左叶子结点和右叶子结点，两种情形都计算一遍后，选择分裂后增益最大的那个方向（左分支或是右分支），作为预测时特征值缺失样本的默认分支方向。
如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子结点。

XGBoost如何处理不平衡数据

如果在意AUC，采用AUC来评估模型的性能，可以通过设置scale_pos_weight来增大少数样本的权重以平衡正样本和负样本的分布。例如当正负样本比例为1:10时，scale_pos_weight可以取10；
如果在意概率(预测得分的合理性)，则不能重新平衡数据集，这会破坏数据的真实分布，应该设置max_delta_step为一个有限数字来帮助收敛（在基模型为LR时有效）。

参考：

https://mp.weixin.qq.com/s/wLE9yb7MtE208IVLFlZNkw

简单介绍

模型核心思想

模型前提设定

01 - 单棵决策树模型表示方法

02 - 加法模型结构

核心生成原理

03 - XGBoost的正则化目标函数及其变量解释

04 - 学习第 ttt 棵树

05 - 泰勒公式及目标函数的泰勒展开

06 - 定义树的复杂度

07 - 根据叶子节点重组累加

08 - 参数学习

核心生长细节

09 - 如何分裂节点

10 - 如何寻找最佳分裂点

11 - 如何停止生长

外围技术简介

12 - XGBoost为什么可以并行训练

13 - XGBoost为什么快

14 - XGBoost防止过拟合的方法

15 - XGBoost如何处理缺失值

XGBoost如何处理不平衡数据

04 - 学习第 $t$ 棵树