集成学习
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习做出预测,这些预测最后结合成组合预测,因此优于任何一个单分类做出的预测
随机森林
是一个包含多个决策树的分类器
随机森林原理
特征值随机 bootstrap 随机有放回抽样
训练集随机 从M抽取m的特征
M远远大于m
起到降维效果
api
sklearn.ensemble.RandomForestClassifier()
n_estimators 森林里数目的数量
优点:适合运行在大数据集上的,处理具有更高效的输入样本,而且不需要降维