决策树

决策树,bagging,boosting

构建步骤

1、计算当前决策节点的混乱程度。
2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。
3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。
4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。

集成学习总的来说可以分为如下两种:

1.基于Bagging, 代表算法:随机森林
Bagging算法是指每一个弱学习器之间不存在强依赖关系,可以并行生成。

2.基于Boosting,代表算法:Adaboost、GBDT、XGBOOST.
Boosting 算法是指每一个弱学习器之间存在强依赖关系,是串行生成的。
决策树,bagging,boosting

Baggiing

决策树,bagging,boosting

Boosting

决策树,bagging,boosting

Boosting、Bagging不同之处:

样本选择

Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

样本权重

Bagging:使用均匀取样,每个样例的权重相等。
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

预测函数

Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。

并行计算

Bagging:各个预测函数可以并行生成。
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

相关文章:

  • 2021-11-17
  • 2021-08-17
  • 2022-01-10
  • 2021-05-27
  • 2021-06-20
  • 2021-06-09
  • 2021-12-12
猜你喜欢
  • 2022-12-23
  • 2021-12-21
  • 2021-07-11
  • 2022-02-13
  • 2022-01-07
  • 2021-08-26
  • 2021-10-01
相关资源
相似解决方案