了解“randomForest”R包中每个类变量的重要性答案

【问题标题】：understanding per class variable importance in 'randomForest' R package了解“randomForest”R包中每个类变量的重要性
【发布时间】：2017-12-23 18:55:52
【问题描述】：

我无法理解 randomForest 中 importance 函数中的按类列。

我的数据集有两个类，“Current”和“Departed”。为了预测这些类别，

我首先创建一个随机森林模型：

fit <- randomForest(IsDeparted ~ ..., df_train),

然后我运行importance函数：

importance(fit)

现在我得到了这样的结果，重要性度量分为四列：“Current”“Departed”“MDA”“GiniDecrease”

有人可以解释如何解释前两个类列吗？在置换该特定变量的值后，预测该特定类别的准确性是否平均下降？如果是这样，这是否意味着如果我对模型在某一特定类的性能更感兴趣，在进行特征选择时我应该关注那些列而不是 MDA 列？

【问题讨论】：

标签： r machine-learning classification random-forest

【解决方案1】：

是的，前两列用于特定类。这是由他们自己的标准误差衡量的准确度的平均下降。如果你对某一类的准确性感兴趣，可以看一下。

让我们举个例子，默认的importance()函数返回一个缩放的重要性：

library(randomForest)
set.seed(111)
fit = randomForest(Species ~ .,data=iris,importance=TRUE)
importance(fit)

                setosa versicolor virginica MeanDecreaseAccuracy
Sepal.Length  6.716993  7.4654657  7.697842            10.869088
Sepal.Width   4.581990 -0.5208697  4.224459             3.772957
Petal.Length 22.155981 33.0549839 27.892363            33.272150
Petal.Width  22.497643 31.4966353 31.589361            33.123064
             MeanDecreaseGini
Sepal.Length         9.333510
Sepal.Width          2.425592
Petal.Length        43.324744
Petal.Width         44.146107

如果查看未缩放的，可以看到 MDA 列大致是 3 个类的平均值，在这种情况下，因为 3 个类是平衡的。如果您的班级不平衡，那将有所不同：

                  setosa   versicolor   virginica MeanDecreaseAccuracy
Sepal.Length 0.034156211  0.021093423 0.036147901          0.030810465
Sepal.Width  0.006522917 -0.001117593 0.006937731          0.004273138
Petal.Length 0.329299111  0.301621639 0.296869242          0.305569113
Petal.Width  0.335363736  0.298729184 0.279526019          0.302855284
             MeanDecreaseGini
Sepal.Length         9.333510
Sepal.Width          2.425592
Petal.Length        43.324744
Petal.Width         44.146107

【讨论】：