【问题标题】:R randomForest localImp for test set用于测试集的 R randomForest localImp
【发布时间】:2021-10-28 11:59:48
【问题描述】:

我正在使用 R 包 randomForest 版本 4.6-14。函数randomForest 采用参数localImp,如果该参数设置为true,则函数计算预测的局部解释。但是,这些解释是针对提供的训练集的。我想在训练集上拟合随机森林模型,并使用该模型来计算单独测试集的局部解释。据我所知,同一个包中的predict.randomForest 函数没有提供这样的功能。有什么想法吗?

【问题讨论】:

    标签: r random-forest


    【解决方案1】:

    您能否详细解释一下在测试集上有一些本地解释意味着什么?

    根据this answerpackage document,变量重要性(或localImp 隐含的个案重要性)评估变量可能如何影响预测准确性。另一方面,对于没有标签来评估预测准确性的测试集,变量重要性应该是不可用的。

    【讨论】:

    • 测试集的局部解释在理想情况下将类似于 Shapley 值,即,对于每个观察,所有变量的贡献之和将与预测相加。对于线性回归,解释将是系数乘以观测值。我不完全确定算法是如何工作的,但对我来说,应该在测试集上评估解释似乎是一件显而易见的事情,所以我认为这是可能的,直到我真正尝试过。您的答案链接为我指向该主题,您可以尝试修复它吗?
    • @user2882096 刚刚编辑了它。我不熟悉本地解释或 Shapley 值,但我觉得 randomForest 包中的 casewise 变量重要性(localImp)可能不是你想要的。
    • 感谢您修复链接!我已经阅读了该答案,但我看不出该算法不能用于测试集的任何原因。唯一的区别是在算法运行时已经构建了树。
    • @user2882096 我刚刚发现您的测试集更像是一个验证集,因此存在标签。很抱歉我在写答案时产生了误解。基于排列的变量重要性应该可用于验证集。但是,casewise 变量重要性仍然未定义。相同的参考答案指出该算法考虑了袋外样本。在验证集中,每一个观察都是新的,OOB的概念是无效的。
    • 嗯你是对的,OOB信息只与模型的拟合有关。我可能会考虑为单独的测试集实现类似的东西。感谢您的帮助!
    猜你喜欢
    • 2012-12-18
    • 2012-03-04
    • 2019-04-27
    • 2018-05-11
    • 2015-07-24
    • 2015-07-20
    • 2019-08-03
    • 2016-04-24
    • 2017-01-11
    相关资源
    最近更新 更多