【问题标题】:understanding per class variable importance in 'randomForest' R package了解“randomForest”R包中每个类变量的重要性
【发布时间】:2017-12-23 18:55:52
【问题描述】:

我无法理解 randomForest 中 importance 函数中的按类列。

我的数据集有两个类,“Current”和“Departed”。为了预测这些类别,

我首先创建一个随机森林模型:

fit <- randomForest(IsDeparted ~ ..., df_train),

然后我运行importance函数:

importance(fit)   

现在我得到了这样的结果,重要性度量分为四列:“Current”“Departed”“MDA”“GiniDecrease”

有人可以解释如何解释前两个类列吗?在置换该特定变量的值后,预测该特定类别的准确性是否平均下降? 如果是这样,这是否意味着如果我对模型在某一特定类的性能更感兴趣,在进行特征选择时我应该关注那些列而不是 MDA 列?

【问题讨论】:

    标签: r machine-learning classification random-forest


    【解决方案1】:

    是的,前两列用于特定类。这是由他们自己的标准误差衡量的准确度的平均下降。如果你对某一类的准确性感兴趣,可以看一下。

    让我们举个例子,默认的importance()函数返回一个缩放的重要性:

    library(randomForest)
    set.seed(111)
    fit = randomForest(Species ~ .,data=iris,importance=TRUE)
    importance(fit)
    
                    setosa versicolor virginica MeanDecreaseAccuracy
    Sepal.Length  6.716993  7.4654657  7.697842            10.869088
    Sepal.Width   4.581990 -0.5208697  4.224459             3.772957
    Petal.Length 22.155981 33.0549839 27.892363            33.272150
    Petal.Width  22.497643 31.4966353 31.589361            33.123064
                 MeanDecreaseGini
    Sepal.Length         9.333510
    Sepal.Width          2.425592
    Petal.Length        43.324744
    Petal.Width         44.146107
    

    如果查看未缩放的,可以看到 MDA 列大致是 3 个类的平均值,在这种情况下,因为 3 个类是平衡的。如果您的班级不平衡,那将有所不同:

                      setosa   versicolor   virginica MeanDecreaseAccuracy
    Sepal.Length 0.034156211  0.021093423 0.036147901          0.030810465
    Sepal.Width  0.006522917 -0.001117593 0.006937731          0.004273138
    Petal.Length 0.329299111  0.301621639 0.296869242          0.305569113
    Petal.Width  0.335363736  0.298729184 0.279526019          0.302855284
                 MeanDecreaseGini
    Sepal.Length         9.333510
    Sepal.Width          2.425592
    Petal.Length        43.324744
    Petal.Width         44.146107
    

    【讨论】:

      猜你喜欢
      • 2015-07-25
      • 1970-01-01
      • 2016-10-19
      • 2020-05-12
      • 2015-06-20
      • 2019-04-17
      • 2012-07-28
      • 1970-01-01
      • 2019-09-22
      相关资源
      最近更新 更多