【问题标题】:permutation importance in h2o random Foresth2o 随机森林中的排列重要性
【发布时间】:2019-01-06 04:09:15
【问题描述】:

随机森林的 CRAN 实现提供了可变重要性度量:基尼重要性以及广泛使用的排列重要性定义为

对于分类,它是一个案例增加的百分比 当变量被置换时,OOB 和错误分类。对于回归, 它是当变量时 OOB 残差平方的平均增加 被置换了

默认情况下 h2o.varimp() 只计算前者。 h2o 中真的没有选项可以从随机森林模型中获取替代度量吗?

谢谢! 机器学习

【问题讨论】:

    标签: random-forest h2o


    【解决方案1】:

    H2O 不计算排列重要性。请参阅documentation 了解如何计算变量重要性的说明。

    为方便起见,我将其粘贴在下面:

    如何计算 DRF 的变量重要性?

    变量的重要性是通过计算每个变量的相对影响来确定的:在树构建过程中是否选择了该变量,以及结果平方误差(在所有树上)改善了多少。

    之前已经针对此问题提出了功能请求,您可以关注它here(尽管请注意它目前处于打开状态)。

    【讨论】:

    • 谢谢,这个答案既有用又令人惊讶,因为在存在分类变量的情况下,基尼重要性受到巨大偏差的影响
    • 请参阅此帖子 (blog.hwr-berlin.de/codeandstats/…),了解有关基尼重要性风险的示例。
    • 请问是否可以获取 h2o 森林中单个树木的 oob 索引?这将使我能够编写自己的排列重要性函数。
    猜你喜欢
    • 2016-06-24
    • 1970-01-01
    • 2021-05-09
    • 2016-07-01
    • 2018-01-11
    • 2015-05-19
    • 2016-11-10
    • 2017-12-04
    • 2021-08-29
    相关资源
    最近更新 更多