在 scikit-learn 中使用随机森林时的 feature_importances_答案

【问题标题】：feature_importances_ when using random forests in scikit-learn在 scikit-learn 中使用随机森林时的 feature_importances_
【发布时间】：2015-12-01 04:03:52
【问题描述】：

我在 scikit-learn 中使用随机森林。我使用了 feature_importances_ 来查看每个特征在预测目标中的重要性。但我不明白这个分数是多少。谷歌搜索 feature_importances_ 说这是平均减少杂质。但我仍然很困惑这是否与平均减少 gigi 杂质相同。如果是这样，如何计算树木和随机森林？除了数学，我还想真正理解它的含义。

【问题讨论】：

有人可以帮忙吗？
简短的回答是：feature_importances_ 让您了解哪些功能对于在给定节点正确拆分数据更为关键。换句话说，更高的分数意味着更有用的特征，它更好地分割数据。如果某个功能的分数非常低，您可能会删除它。然而，大量特征（与树的数量成正比）将是可取的，因为这将允许生长非常不同的树（不相关），从而产生更通用的分类器/回归器。
找几张幻灯片here（14 和 15）谈论 不是数学上的。

标签： scikit-learn random-forest

【解决方案1】：

feature_importances_ 函数将告诉您每个特征对预测的贡献程度（信息增益）

随机森林根据基尼系数、信息增益、卡方或熵对自变量或特征进行分类。那些对信息增益贡献最大的特征将获得高分。

【讨论】：