使用随机森林模型预测外部数据集

【问题标题】：predict external dataset with models from random forest使用随机森林模型预测外部数据集
【发布时间】：2017-01-26 12:56:37
【问题描述】：

我在 python 中使用joblib.dump 来保存模型，使用随机森林进行 5 折交叉验证建模。结果，我为每个数据集保存了 5 个模型：MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在，当我的外部数据集中每一行的最终预测是 5 个模型的平均值时，我想使用这些模型使用 predict_proba 预测外部数据集。最好的方法是什么？谢谢你的帮助

【问题讨论】：

标签： python

【解决方案1】：

首先，你不应该保存交叉验证的结果。交叉验证不是一种训练方法，它是一种评估方案。您应该在整个数据集上构建单个模型并使用它来进行预测。

如果由于某种原因，您无法再训练您的模型，您仍然可以通过对它们进行平均来使用这 5 个预测（因为随机森林本身就是一个简单的平均树集合），但是返回并重新训练应该会给您更好的结果。

【讨论】：