【发布时间】:2013-12-13 16:27:56
【问题描述】:
也许这太啰嗦了。关于sklearn的随机森林的简单问题:
对于真/假分类问题,sklearn 的随机森林中有没有办法指定用于训练每棵树的样本大小,以及真假观察的比率?
更多详情如下:
在随机森林的 R 实现中,称为 randomForest,有一个选项sampsize()。这使您可以根据结果平衡用于训练每棵树的样本。
例如,如果您尝试预测结果是真还是假,并且训练集中 90% 的结果为假,您可以设置sampsize(500, 500)。这意味着每棵树都将使用来自训练集中的随机样本(有替换)进行训练,其中包含 500 个真和 500 个假观察。在这些情况下,我发现模型在使用 50% 的截止值时可以更好地预测真实结果,从而产生更高的 kappas。
在 sklearn 实现中似乎没有此选项。
- 有没有办法在 sklearn 中模仿这个功能?
- 简单地根据 Kappa 统计量优化截止值是否会获得类似的结果,或者这种方法会丢失一些东西?
【问题讨论】:
标签: python r scikit-learn classification random-forest