机器学习——决策树(下)

五、随机森林

在机器学习中，随机森林由许多的决策树组成，因为这些决策树的形成采用了随机的方法，因此也叫做随机决策树。
随机森林中的树之间是没有关联的。当测试数据进入随机森林时，其实就是让每一颗决策树进行分类，最后取所以决策树中分类结果最多的那类为最终的结果。因此随机森林时一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林既可以处理属性为离散值得量，如ID3算法，也可以处理属性为连续值得量，比如C4.5算法。另外，随机森林还可以用来进行无监督学习聚类和异常点检测。

5.1 理论描述
随机森林由决策树组成，决策树实际上将空间用超平面进行划分的一种方法，每次分割的时候，都将当前的空间一分为二，如说下面的决策树，其属性的值都是连续的实数；如图1所示；或者将空间划分图二所示样子。
机器学习——决策树(下)
随机森林比较适合做多分类问题，训练和预测速度快；同时，对训练数据的容错能力，是一种有效的估计缺失数据的一种方法，当数据集中有大比例的数据缺失时仍然可以保持精度不变和能够有效的处理大的数据集；可以处理没有删减的成千上万的变量；能够在分类的过程中可以生产一个泛化误差的内部无偏估计；能够检测到特征之间的相互影响以及重要性程度；不过出现过度拟合；实现简单容易并行化。

未完待续……