【发布时间】:2021-08-22 07:13:15
【问题描述】:
通过 tidymodels 和 R 中的 vip 包,我计算了变量重要性。代码明智的看起来像这样:
rf_vi_fit %>%
pull_workflow_fit() %>%
vip(geom = "point") +
labs(title = "Random forest variable importance")
在视觉上它看起来像这样:
但是,变量重要性实际上意味着什么?变量重要性可以基于多个指标,例如 R 平方的增益或基尼损失,但我不确定 vip 的变量重要性基于何处。我的其他预测具有 3 到 4 左右的可变重要性,而不是在这个模型中的 0.005。
我在 vip() 文档中也找不到变量重要性的依据。
【问题讨论】:
-
当您使用默认设置时,它应该是:“平均减少杂质(或基尼重要性)机制:在每棵树的每次拆分时,拆分标准的改进是归因于分裂变量的重要性度量,并针对每个变量分别在森林中的所有树木上累积。”资料来源:blog.hwr-berlin.de/codeandstats/… 奇怪的是 Tidymodels 没有具体说明。但我认为这是真的。
标签: r random-forest tidymodels vip