【发布时间】:2019-01-06 04:09:15
【问题描述】:
随机森林的 CRAN 实现提供了可变重要性度量:基尼重要性以及广泛使用的排列重要性定义为
对于分类,它是一个案例增加的百分比 当变量被置换时,OOB 和错误分类。对于回归, 它是当变量时 OOB 残差平方的平均增加 被置换了
默认情况下 h2o.varimp() 只计算前者。 h2o 中真的没有选项可以从随机森林模型中获取替代度量吗?
谢谢! 机器学习
【问题讨论】:
标签: random-forest h2o
随机森林的 CRAN 实现提供了可变重要性度量:基尼重要性以及广泛使用的排列重要性定义为
对于分类,它是一个案例增加的百分比 当变量被置换时,OOB 和错误分类。对于回归, 它是当变量时 OOB 残差平方的平均增加 被置换了
默认情况下 h2o.varimp() 只计算前者。 h2o 中真的没有选项可以从随机森林模型中获取替代度量吗?
谢谢! 机器学习
【问题讨论】:
标签: random-forest h2o
H2O 不计算排列重要性。请参阅documentation 了解如何计算变量重要性的说明。
为方便起见,我将其粘贴在下面:
如何计算 DRF 的变量重要性?
变量的重要性是通过计算每个变量的相对影响来确定的:在树构建过程中是否选择了该变量,以及结果平方误差(在所有树上)改善了多少。
之前已经针对此问题提出了功能请求,您可以关注它here(尽管请注意它目前处于打开状态)。
【讨论】: