随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类或者回归等问题,其基本思想就是构建多棵决策树,形成一个森林,然后用这些决策树共同决策输出类别是什么。
  随机森林的生成流程大致如下:
  1)从样本集中通过重采样的方式产生n个样本;
  2)假设样本特征数目为d,对n个样本选择d中的k个特征,用建立决策树的方法来获得最佳分割点;
  3)重复m次,产生m棵决策树;
  4)多数投票机制来进行预测。
  小例子:根据已有的训练集已经生成了对应的随机森林,随机森林如何利用某一个人的年龄(Age)、性别(Gender)、教育情况(Highest Educational Qualification)、工作领域(Industry)以及住宅地(Residence)共5个字段来预测他的收入层次。
  收入层次定义:
  1)Band 1:Below $ 40,000
  2)Band 2:$ 40,000-150,000
  3)Band 3:More than:$ 150,000
  随机森林中每一棵树都可以看做是一棵CART(分类回归树),这里假设森林中有5棵CART树,总特征个数N=5,我们取k=1(这里假设每个CART树对应一个不同的特征)。
  随机森林介绍
  我们要预测的某个人的信息如下:
  1)Age:35 years;
  2)Gender:Male;
  3)Highest Educational Qualification:Diploma holder;
  4)Industry:Manufacturing;
  5)Residence:Metro
  根据这5棵CART树的分类结果,我们可以针对这个人的信息建立收入层次的分布情况:
  随机森林介绍
  最后,我们得出结论,这个人的收入层次70%是一等,大约24%是二等,6%为三等,所以最终认定该人的收入层次属于一等收入,即小于$ 40,000。

相关文章:

猜你喜欢
  • 2021-04-07
  • 2021-12-30
  • 2021-08-10
相关资源
相似解决方案