cross_val_score 与 .score 的回归评分结果显着不同答案

【问题标题】：Regression scoring results dramatically different for cross_val_score vs .scorecross_val_score 与 .score 的回归评分结果显着不同
【发布时间】：2019-08-07 19:02:12
【问题描述】：

我正在运行 RandomForestRegressor()。我正在使用 R-squared 进行评分。为什么使用 .score 和 cross_val_score 得到截然不同的结果？以下是相关代码：

X = df.drop(['y_var'], axis=1)
y = df['y_var']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

# Random Forest Regression
rfr = RandomForestRegressor()
model_rfr = rfr.fit(X_train,y_train)
pred_rfr = rfr.predict(X_test)
result_rfr = model_rfr.score(X_test, y_test)

# cross-validation
rfr_cv_r2 = cross_val_score(rfr, X, y, cv=5, scoring='r2')

我知道交叉验证是多次得分，而 .score 得分是一次，但结果截然不同，显然有问题。结果如下：

R2-dot-score: .99072
R2-cross-val: [0.5349302  0.65832268 0.52918704 0.74957719 0.45649582]

我做错了什么？或者什么可以解释这种差异？

编辑：

好的，我可能已经解决了这个问题。似乎 cross_val_score 没有对数据进行混洗，当数据组合在一起时，这可能会导致更糟糕的预测。我找到的最简单的解决方案（通过this answer）是在运行模型之前简单地打乱数据帧：

shuffled_df = df.reindex(np.random.permutation(df.index))

在我这样做之后，我开始在 .score 和 cross_val_score 之间得到类似的结果：

R2-dot-score: 0.9910715555903232
R2-cross-val: [0.99265184 0.9923142  0.9922923  0.99259524 0.99195022]

【问题讨论】：

标签： python scikit-learn statistics random-forest cross-validation

【解决方案1】：

好的，我可能已经解决了这个问题。似乎 cross_val_score 没有随机化数据，当相似的数据组合在一起时，这可能会导致更糟糕的预测。我找到的最简单的解决方案（通过this answer）是在运行模型之前简单地打乱数据帧：

shuffled_df = df.reindex(np.random.permutation(df.index))

在我这样做之后，我开始在 .score 和 cross_val_score 之间得到类似的结果：

R2-dot-score: 0.9910715555903232
R2-cross-val: [0.99265184 0.9923142  0.9922923  0.99259524 0.99195022]

【讨论】：