为什么 10 倍交叉验证得到的模型性能得分存在巨大差异？答案

【问题标题】：why is there a huge difference existed in model performance score obtained from 10-fold cross validation?为什么 10 倍交叉验证得到的模型性能得分存在巨大差异？
【发布时间】：2014-11-06 14:57:20
【问题描述】：

我正在使用 梯度提升回归模型 (GBRT)。

为了评估这个模型，我使用 10 折交叉验证，在每个验证中我都设置了 相同的参数，因此 btw folds 的唯一区别就是训练和测试数据集。

对于每一折，我计算确定系数作为拟合度量。

但是，我发现每次折叠得到的决定系数存在很大差异，例如，从 fold_1 到 fold_10 的决定系数是：

[ 0.95310245 0.89725342 0.886711 0.97063794 0.84182142 0.80870443 0.70535911 0.8888032 0.42510782 0.70421155]

虽然均值是 0.81，标准差是 0.31，但有一个倍数的决定系数是 0.4，而另一个倍数是 0.97。

，为什么会有这么大的差异？这样的差异是否说明我的模型性能不好？

【问题讨论】：

如何应用交叉验证？默认情况下（iirc）数据不会被打乱，这可能会导致折叠之间的巨大差异。此外，您的数据可能很小。

标签： scikit-learn regression cross-validation

【解决方案1】：

这通常意味着您有过拟合问题，请尝试选择不同的参数集。您可以在 scikit-learn 示例http://scikit-learn.org/stable/auto_examples/grid_search_digits.html '使用带有交叉验证的网格搜索的参数估计'中了解有关参数搜索的更多信息

【讨论】：