【问题标题】:predict external dataset with models from random forest使用随机森林模型预测外部数据集
【发布时间】:2017-01-26 12:56:37
【问题描述】:

我在 python 中使用joblib.dump 来保存模型,使用随机森林进行 5 折交叉验证建模。结果,我为每个数据集保存了 5 个模型:MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在,当我的外部数据集中每一行的最终预测是 5 个模型的平均值时,我想使用这些模型使用 predict_proba 预测外部数据集。最好的方法是什么? 谢谢你的帮助

【问题讨论】:

    标签: python


    【解决方案1】:

    首先,你不应该保存交叉验证的结果。交叉验证不是一种训练方法,它是一种评估方案。您应该在整个数据集上构建单个模型并使用它来进行预测。

    如果由于某种原因,您无法再训练您的模型,您仍然可以通过对它们进行平均来使用这 5 个预测(因为随机森林本身就是一个简单的平均树集合),但是返回并重新训练应该会给您 更好的结果。

    【讨论】:

      猜你喜欢
      • 2019-07-10
      • 2016-04-09
      • 2021-03-13
      • 2014-08-07
      • 2014-07-28
      • 2021-03-21
      • 2019-05-04
      • 2017-12-15
      相关资源
      最近更新 更多