决策树
构建步骤
1、计算当前决策节点的混乱程度。
2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。
3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。
4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。
集成学习总的来说可以分为如下两种:
1.基于Bagging, 代表算法:随机森林
Bagging算法是指每一个弱学习器之间不存在强依赖关系,可以并行生成。
2.基于Boosting,代表算法:Adaboost、GBDT、XGBOOST.
Boosting 算法是指每一个弱学习器之间存在强依赖关系,是串行生成的。
Baggiing
Boosting
Boosting、Bagging不同之处:
样本选择
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
样本权重
Bagging:使用均匀取样,每个样例的权重相等。
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
预测函数
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
并行计算
Bagging:各个预测函数可以并行生成。
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。