【发布时间】:2015-12-25 07:48:46
【问题描述】:
我正在使用ramdomForest 包来创建随机森林模型。 5 月的数据集非常庞大,对 200 多个变量进行了超过一百万次的观察。在使用样本数据训练随机森林时,我无法捕获所有变量的所有因子水平。
因此,在使用 predict() 对验证集进行预测时,它会引发错误,因为存在未在训练数据中捕获的新因子水平。
一种解决方案是确保训练数据变量包含所有因子水平。但事实证明这是非常乏味的,我并不需要所有因子水平。
在 randomForest 包中运行 predict() 时,是否存在一种方法可以自动排除验证集中包含先前未识别因子水平的观察结果?可以在 CRAN 文档中找到任何论据。我不认为我可以为这个做一个可重复的例子。
【问题讨论】:
-
但是你怎么能预测训练中不存在的水平呢?
-
我不介意排除一些频率非常低的水平的观察。我可以在预测时忽略这部分数据。
标签: r random-forest r-factor