【问题标题】:How to use learning curves with random forests如何在随机森林中使用学习曲线
【发布时间】:2016-10-16 19:39:36
【问题描述】:
我一直在学习 Andrew Ng 的机器学习课程,刚刚完成了学习曲线讲座。我为我创建的逻辑回归模型创建了一条学习曲线,看起来训练和 CV 分数收敛,这意味着我的模型可以从更多特征中受益。我怎样才能对随机森林之类的东西进行类似的分析?当我在 sklearn 中为具有相同数据的随机森林分类器创建学习曲线时,我的训练分数非常接近 1。我是否需要使用不同的方法来获取训练错误?
【问题讨论】:
标签:
machine-learning
classification
random-forest
【解决方案1】:
Learning Curves 是一个了解bias-variance-trade-off 的工具。由于您的随机森林模型训练分数非常接近 1,因此您的随机森林模型 l 能够学习底层功能。如果您的基础功能更非线性、更复杂,您将不得不添加更多功能。请参阅以下example,图学习曲线。
仅从 2 个特征开始,然后训练您的随机森林模型。然后使用您的所有功能并训练您的模型的随机森林。
您应该会看到与您的示例类似的图表。