【发布时间】:2015-12-01 04:03:52
【问题描述】:
我在 scikit-learn 中使用随机森林。我使用了 feature_importances_ 来查看每个特征在预测目标中的重要性。但我不明白这个分数是多少。谷歌搜索 feature_importances_ 说这是平均减少杂质。但我仍然很困惑这是否与平均减少 gigi 杂质相同。如果是这样,如何计算树木和随机森林?除了数学,我还想真正理解它的含义。
【问题讨论】:
-
有人可以帮忙吗?
-
简短的回答是:
feature_importances_让您了解哪些功能对于在给定节点正确拆分数据更为关键。换句话说,更高的分数意味着更有用的特征,它更好地分割数据。如果某个功能的分数非常低,您可能会删除它。然而,大量特征(与树的数量成正比)将是可取的,因为这将允许生长非常不同的树(不相关),从而产生更通用的分类器/回归器。 -
找几张幻灯片here(14 和 15)谈论 不是数学上的。
标签: scikit-learn random-forest