用于测试集的 R randomForest localImp答案

【问题标题】：R randomForest localImp for test set用于测试集的 R randomForest localImp
【发布时间】：2021-10-28 11:59:48
【问题描述】：

我正在使用 R 包 randomForest 版本 4.6-14。函数randomForest 采用参数localImp，如果该参数设置为true，则函数计算预测的局部解释。但是，这些解释是针对提供的训练集的。我想在训练集上拟合随机森林模型，并使用该模型来计算单独测试集的局部解释。据我所知，同一个包中的predict.randomForest 函数没有提供这样的功能。有什么想法吗？

【问题讨论】：

标签： r random-forest

【解决方案1】：

您能否详细解释一下在测试集上有一些本地解释意味着什么？

根据this answer 和package document，变量重要性（或localImp 隐含的个案重要性）评估变量可能如何影响预测准确性。另一方面，对于没有标签来评估预测准确性的测试集，变量重要性应该是不可用的。

【讨论】：

测试集的局部解释在理想情况下将类似于 Shapley 值，即，对于每个观察，所有变量的贡献之和将与预测相加。对于线性回归，解释将是系数乘以观测值。我不完全确定算法是如何工作的，但对我来说，应该在测试集上评估解释似乎是一件显而易见的事情，所以我认为这是可能的，直到我真正尝试过。您的答案链接为我指向该主题，您可以尝试修复它吗？
@user2882096 刚刚编辑了它。我不熟悉本地解释或 Shapley 值，但我觉得 randomForest 包中的 casewise 变量重要性（localImp）可能不是你想要的。
感谢您修复链接！我已经阅读了该答案，但我看不出该算法不能用于测试集的任何原因。唯一的区别是在算法运行时已经构建了树。
@user2882096 我刚刚发现您的测试集更像是一个验证集，因此存在标签。很抱歉我在写答案时产生了误解。基于排列的变量重要性应该可用于验证集。但是，casewise 变量重要性仍然未定义。相同的参考答案指出该算法考虑了袋外样本。在验证集中，每一个观察都是新的，OOB的概念是无效的。
嗯你是对的，OOB信息只与模型的拟合有关。我可能会考虑为单独的测试集实现类似的东西。感谢您的帮助！