【问题标题】:Consistency between OOB error rate and the confusion matrixOOB错误率与混淆矩阵的一致性
【发布时间】:2013-01-29 14:34:08
【问题描述】:

检查我的模型的统计数据时,confusion matrix 中的数字似乎与randomForest 中的OOB error rate 的数字不一致。

如何从混淆矩阵中推导出OOB错误率?它们之间有什么关系?

在下面的示例中,我打印了两个模型的输出,一个适合分层抽样(使用sampsize 中的样本子集),另一个不适合(即使用默认抽样方案,即我认为使用所有样本)。

                 

我没有公开数据,但这里是函数调用:

sumY = summary(Y)
sampsize <- c(sumY["Y0"]/10, sumY["Y1"])

# First model in the image above
strat.rf.model <- randomForest(x=X,y=Y,sampsize=sampsize, strata=Y)

# Second model in the image above    
rf.model <- randomForest(x=X,y=Y)

【问题讨论】:

    标签: r random-forest


    【解决方案1】:

    不是不一致,只是算术:

    > 180 / (1699 + 180)
    [1] 0.09579564
    > 63 / (63 + 58)
    [1] 0.5206612
    > (180 + 63) / (1699 + 180 + 63 + 58)
    [1] 0.1215
    

    每个类中的错误率定义为该类中错误分类观察值的比例,而总体错误分类率是整个数据集的错误分类观察值的比例。

    每个类的错误率很少与整体错误率完全匹配。如果你停下来想一想,这完全有道理:有些类将比其他类更难识别,然后总体错误率是“平均”。

    【讨论】:

      猜你喜欢
      • 2019-10-15
      • 2015-09-18
      • 2014-07-09
      • 2016-05-07
      • 2019-01-09
      • 2018-04-26
      • 1970-01-01
      • 2020-03-09
      • 2018-10-02
      相关资源
      最近更新 更多