机器学习中的Bias、Variance

机器学习中的误差Error可以理解为偏差和方差的和。

Error(误差) = Bias(偏差) + Variance(方差)

偏差指的是样本输出与真实值之间的差距，即模型本身的拟合程度。

代表了模型本身的精确度

方差指的是模型每一次输出结果与真实值之间的差距，即模型的泛化能力。

代表了模型的稳定性。

对于Bagging来说，最终预测结果由很多基学习器投票或者取平均产生，可以保证低方差(variance)。

因此对于每个基学习器来说，不用过多的关注方差、降低方差，把目标放在降低偏差(bias)。

所以RF中的每棵树都尽最大程度的生长，并且没有剪枝过程。

对于Boosting来说，最终结果由很多基学习器加权做和产生，在每一轮的基础上更加拟合数据，可以保证低偏差（bias）。

因此对每个基学习来说，不用过多的关注偏差，把目标放在降低方差(variance)上。

所以基学习器越简单越好，在GBDT中，限制了每棵树的深度以及叶子节点的个数。