【问题标题】:How to calculate randomForest training AUC in R如何计算 R 中的 randomForest 训练 AUC
【发布时间】:2018-03-28 08:47:02
【问题描述】:

很抱歉再次发布这个问题,但我现在真的需要帮助。 我正在尝试计算 R 中 randomForest 模型的训练集的 AUC,有两种计算方法,但给出不同的结果。以下是我的问题的可复制示例。如果有人可以提供帮助,我真的很感激!!!

library(randomForest)
library(pROC)
library(ROCR)
# prep training to binary outcome
train <- iris[iris$Species %in% c('virginica', 'versicolor'),]
train$Species <- droplevels(train$Species)

# build model
rfmodel <- randomForest(Species~., data=train, importance=TRUE, ntree=2)

#the first way to calculate training auc
rf_p_train <- predict(rfmodel, type="prob",newdata = train)[,2]
rf_pr_train <- prediction(rf_p_train, train$Species)
r_auc_train1 <- performance(rf_pr_train, measure = "auc")@y.values[[1]] 
r_auc_train1    #0.9888


#the second way to calculate training auc
rf_p_train <- as.vector(rfmodel$votes[,2])
rf_pr_train <- prediction(rf_p_train, train$Species);
r_auc_train2 <- performance(rf_pr_train, measure = "auc")@y.values[[1]]
r_auc_train2  #0.9175

【问题讨论】:

    标签: r random-forest training-data auc


    【解决方案1】:

    要获得两个预测函数的相同结果,您应该从第一个函数中排除 newdata 参数(在 predict 函数的包文档中进行了说明),

    rf_p_train <- predict(rfmodel, type="prob")[,2]
    rf_pr_train <- prediction(rf_p_train, train$Species)
    r_auc_train1 <- performance(rf_pr_train, measure = "auc")@y.values[[1]] 
    r_auc_train1
    

    返回,

    [1] 0.8655172
    

    第二个函数返回 OOB 投票,如 randomForest 函数的包文档中所述,

    rf_p_train <- as.vector(rfmodel$votes[,2])
    rf_pr_train <- prediction(rf_p_train, train$Species);
    r_auc_train2 <- performance(rf_pr_train, measure = "auc")@y.values[[1]]
    r_auc_train2
    

    返回(相同的结果),

    [1] 0.8655172
    

    【讨论】:

    • 非常感谢!我应该查看一下文件。
    • 但是随机森林中测试数据的AUC是否可能高于训练数据的AUC?我研究过其他数据,测试集的 AUC 总是高于训练数据的 AUC。你能帮我解决这个问题吗?非常感谢!
    • @annadai,我认为正确的方法是使用您的(样本)数据发布一个新问题。
    • 问题来了。非常感谢您的帮助! stackoverflow.com/q/46812212/8737443
    猜你喜欢
    • 1970-01-01
    • 2011-06-21
    • 2015-08-02
    • 2021-08-07
    • 1970-01-01
    • 2013-05-08
    • 2011-12-10
    • 2017-09-29
    • 2021-11-24
    相关资源
    最近更新 更多