【发布时间】:2016-09-12 16:49:00
【问题描述】:
我在 R 中使用带有滚动窗口的 randomForest 包来预测金融时间序列(股票)的回报。为此,我开发了一篮子功能,我的目标是了解它们的相对预测能力。
我的挑战是我不能使用随机森林的可变重要性特征,因为我的大多数特征都与它们最近的过去高度相关。例如,移动平均线跨越几天的窗口,这意味着它包含我数据集中多个观察值的信息。
这意味着随机森林生成的袋外样本将与随机森林用来训练我的模型的样本内特征相关联。因此,我从中得到的可变重要性将是高度乐观和过度拟合的。
我看到的解决方案是以某种方式计算样本外测试集上的变量重要性,而不是使用 OOB 交叉验证。目标是确保与训练集完全没有相关性。
我的问题:R 中是否存在用于从测试集而不是标准 OOB 交叉验证集计算和提取变量重要性的包?如果没有,您能否提出实现这一目标的方法?感谢您的帮助。
【问题讨论】:
标签: r machine-learning time-series random-forest cross-validation