决策树，bagging，boosting

决策树

构建步骤

1、计算当前决策节点的混乱程度。
2、列举决策属性，分别计算按每一个决策属性决策的情况下熵值的大小。
3、计算信息增益：Entropy(决策之前)-Entropy(决策之后)，选择信息增益最大的属性作为优先决策属性。
4、递归循环上述步骤，直到决策树达到停止生长的条件为止，即每个叶子节点均只有一类数据。

集成学习总的来说可以分为如下两种：

1.基于Bagging, 代表算法：随机森林
Bagging算法是指每一个弱学习器之间不存在强依赖关系，可以并行生成。

2.基于Boosting，代表算法：Adaboost、GBDT、XGBOOST.
Boosting 算法是指每一个弱学习器之间存在强依赖关系，是串行生成的。
决策树，bagging，boosting

Baggiing

决策树，bagging，boosting

Boosting

决策树，bagging，boosting

Boosting、Bagging不同之处：

样本选择

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

样本权重

Bagging：使用均匀取样，每个样例的权重相等。
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

预测函数

Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

并行计算

Bagging：各个预测函数可以并行生成。
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。