【问题标题】:Cross validation on random forest随机森林的交叉验证
【发布时间】:2018-09-03 11:10:10
【问题描述】:

我用下面的代码做了随机森林回归和交叉验证。

我有两个问题。

  • 我不明白案例中交叉验证中的“分数”是什么意思 回归,而不是分类(我的意思是在默认情况下)。什么 这是?
  • 还有设置其他功能的功能(如 mean_squared_error) 作为分数?

谢谢。

from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor(n_estimators=100, criterion='mse',random_state=1, n_jobs=-1)    
rf.fit(X_trainr, y_trainr)    
y_train_pred = rf.predict(X_trainr)    
y_test_pred = rf.predict(X_testr)    
y_all_pred = rf.predict(xsetr)    

from sklearn.model_selection import cross_val_score

scores = cross_val_score(rf, xsetr, ysetr, cv=5)    
print("Cross-validation scores:{}".format(scores))

【问题讨论】:

    标签: machine-learning random-forest cross-validation


    【解决方案1】:
    • 它为您提供模型在验证集上的准确性
    • 但它执行的是 Kfold 交叉验证,而不是简单的训练-验证拆分
    • Cross-Validation 通常在数据非常少的情况下应用,并且通常是轮流拆分
    • 交叉验证拆分的数量由参数cv 给出,在您的情况下为 5
    • 简单来说就是对数据进行 5 次拆分(每次拆分不同),并评估此拆分上的模型性能,此评估指标为准确度
    • scores 变量将是一个 numpy 浮点数组,其形状为 (5, )
    • 因此您的 scores 数组包含 5 个值,每个值代表您的模型在特定拆分上的准确度(拆分是测试数据)
    • 评分参数不一定是准确度,您可以将其设置为 MSE 或任何其他定量指标
    • 您可以更改scoring 参数,该参数必须是cross_val_score 函数的字符串,但我认为默认情况下它是准确的
    • 您可以查看here评分参数列表

    【讨论】:

      【解决方案2】:

      根据文档:cross_val_score 的结果是每次运行交叉验证的估计器得分数组。。默认情况下,据我了解,这是您的分类器在每一折上的准确性。对于回归,这取决于你,它可以是均方误差,也就是损失。有兴趣的可以看一下这个函数的源码。

      【讨论】:

        【解决方案3】:

        sklearn 中用于回归模型的默认分数是R^2 coefficient.

        系数R^2定义为(1 - u/v),其中u是残差 平方和 ((y_true - y_pred) ** 2).sum() 和 v 是总和 平方数 ((y_true - y_true.mean()) ** 2).sum()。最好的 score 是 1.0,它可以是负数(因为模型可以 任意更糟)。始终预测预期的常数模型 y 的值,忽略输入特征,将获得 R^2 分数 0.0.

        您可以通过将scoring parameter 传递给 cross_val_score 来选择不同的 cv 分数。为了最小化均方误差,它将是 neg_mean_squared_error(分数总是最大化):

        scores = cross_val_score(rf, xsetr, ysetr, cv=5, scoring = 'neg_mean_squared_error') 
        

        【讨论】:

          猜你喜欢
          • 2014-04-16
          • 2015-10-16
          • 1970-01-01
          • 1970-01-01
          • 2019-09-15
          • 2021-06-05
          • 2021-06-17
          • 2019-09-24
          • 2013-11-14
          相关资源
          最近更新 更多