【问题标题】:feature_importances_ when using random forests in scikit-learn在 scikit-learn 中使用随机森林时的 feature_importances_
【发布时间】:2015-12-01 04:03:52
【问题描述】:

我在 scikit-learn 中使用随机森林。我使用了 feature_importances_ 来查看每个特征在预测目标中的重要性。但我不明白这个分数是多少。谷歌搜索 feature_importances_ 说这是平均减少杂质。但我仍然很困惑这是否与平均减少 gigi 杂质相同。如果是这样,如何计算树木和随机森林?除了数学,我还想真正理解它的含义。

【问题讨论】:

  • 有人可以帮忙吗?
  • 简短的回答是:feature_importances_ 让您了解哪些功能对于在给定节点正确拆分数据更为关键。换句话说,更高的分数意味着更有用的特征,它更好地分割数据。如果某个功能的分数非常低,您可能会删除它。然而,大量特征(与树的数量成正比)将是可取的,因为这将允许生长非常不同的树(不相关),从而产生更通用的分类器/回归器。
  • 找几张幻灯片here(14 和 15)谈论 不是数学上的

标签: scikit-learn random-forest


【解决方案1】:

feature_importances_ 函数将告诉您每个特征对预测的贡献程度(信息增益)

随机森林根据基尼系数、信息增益、卡方或熵对自变量或特征进行分类。那些对信息增益贡献最大的特征将获得高分。

【讨论】:

    猜你喜欢
    • 2017-12-10
    • 2015-03-28
    • 2013-04-26
    • 2016-06-22
    • 2017-03-26
    • 2014-11-12
    • 2015-09-16
    • 2015-02-20
    • 2015-04-13
    相关资源
    最近更新 更多