【发布时间】:2017-12-23 18:55:52
【问题描述】:
我无法理解 randomForest 中 importance 函数中的按类列。
我的数据集有两个类,“Current”和“Departed”。为了预测这些类别,
我首先创建一个随机森林模型:
fit <- randomForest(IsDeparted ~ ..., df_train),
然后我运行importance函数:
importance(fit)
现在我得到了这样的结果,重要性度量分为四列:“Current”“Departed”“MDA”“GiniDecrease”
有人可以解释如何解释前两个类列吗?在置换该特定变量的值后,预测该特定类别的准确性是否平均下降? 如果是这样,这是否意味着如果我对模型在某一特定类的性能更感兴趣,在进行特征选择时我应该关注那些列而不是 MDA 列?
【问题讨论】:
标签: r machine-learning classification random-forest