【发布时间】:2014-11-06 14:57:20
【问题描述】:
我正在使用 梯度提升回归模型 (GBRT)。
为了评估这个模型,我使用 10 折交叉验证,在每个验证中我都设置了 相同的参数,因此 btw folds 的唯一区别就是训练和测试数据集。
对于每一折,我计算确定系数作为拟合度量。
但是,我发现每次折叠得到的决定系数存在很大差异,例如,从 fold_1 到 fold_10 的决定系数是:
[ 0.95310245 0.89725342 0.886711 0.97063794 0.84182142 0.80870443 0.70535911 0.8888032 0.42510782 0.70421155]
虽然均值是 0.81,标准差是 0.31,但有一个倍数的决定系数是 0.4,而另一个倍数是 0.97。
,为什么会有这么大的差异?这样的差异是否说明我的模型性能不好?
【问题讨论】:
-
如何应用交叉验证?默认情况下(iirc)数据不会被打乱,这可能会导致折叠之间的巨大差异。此外,您的数据可能很小。
标签: scikit-learn regression cross-validation