随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类或者回归等问题,其基本思想就是构建多棵决策树,形成一个森林,然后用这些决策树共同决策输出类别是什么。
随机森林的生成流程大致如下:
1)从样本集中通过重采样的方式产生n个样本;
2)假设样本特征数目为d,对n个样本选择d中的k个特征,用建立决策树的方法来获得最佳分割点;
3)重复m次,产生m棵决策树;
4)多数投票机制来进行预测。
小例子:根据已有的训练集已经生成了对应的随机森林,随机森林如何利用某一个人的年龄(Age)、性别(Gender)、教育情况(Highest Educational Qualification)、工作领域(Industry)以及住宅地(Residence)共5个字段来预测他的收入层次。
收入层次定义:
1)Band 1:Below $ 40,000
2)Band 2:$ 40,000-150,000
3)Band 3:More than:$ 150,000
随机森林中每一棵树都可以看做是一棵CART(分类回归树),这里假设森林中有5棵CART树,总特征个数N=5,我们取k=1(这里假设每个CART树对应一个不同的特征)。
我们要预测的某个人的信息如下:
1)Age:35 years;
2)Gender:Male;
3)Highest Educational Qualification:Diploma holder;
4)Industry:Manufacturing;
5)Residence:Metro
根据这5棵CART树的分类结果,我们可以针对这个人的信息建立收入层次的分布情况:
最后,我们得出结论,这个人的收入层次70%是一等,大约24%是二等,6%为三等,所以最终认定该人的收入层次属于一等收入,即小于$ 40,000。
相关文章: