随机森林介绍

随机森林是一种重要的基于Bagging的集成学习方法，可以用来做分类或者回归等问题，其基本思想就是构建多棵决策树，形成一个森林，然后用这些决策树共同决策输出类别是什么。
　　随机森林的生成流程大致如下：
　　1）从样本集中通过重采样的方式产生n个样本；
　　2）假设样本特征数目为d，对n个样本选择d中的k个特征，用建立决策树的方法来获得最佳分割点；
　　3）重复m次，产生m棵决策树；
　　4）多数投票机制来进行预测。
　　小例子：根据已有的训练集已经生成了对应的随机森林，随机森林如何利用某一个人的年龄（Age）、性别（Gender）、教育情况（Highest Educational Qualification）、工作领域（Industry）以及住宅地（Residence）共5个字段来预测他的收入层次。
　　收入层次定义：
　　1）Band 1：Below $ 40,000
　　2）Band 2：$ 40,000-150,000
　　3）Band 3：More than：$ 150,000
　　随机森林中每一棵树都可以看做是一棵CART（分类回归树），这里假设森林中有5棵CART树，总特征个数N=5，我们取k=1（这里假设每个CART树对应一个不同的特征）。
　　随机森林介绍
　　我们要预测的某个人的信息如下：
　　1）Age：35 years；
　　2）Gender：Male；
　　3）Highest Educational Qualification：Diploma holder；
　　4）Industry：Manufacturing；
　　5）Residence：Metro
　　根据这5棵CART树的分类结果，我们可以针对这个人的信息建立收入层次的分布情况：
　　随机森林介绍
　　最后，我们得出结论，这个人的收入层次70%是一等，大约24%是二等，6%为三等，所以最终认定该人的收入层次属于一等收入，即小于$ 40,000。