基于极端随机化树和特征冗余的特征重要性答案

【问题标题】：Feature importance based on extremely randomize trees and feature redundancy基于极端随机化树和特征冗余的特征重要性
【发布时间】：2012-12-27 14:02:30
【问题描述】：

我正在使用 Scikit-learn Extremely Randomized Trees 算法来获取有关相对特征重要性的信息，并且我对如何对“冗余特征”进行排名有疑问。

如果我有两个相同（冗余）且对分类很重要的特征，则极度随机化的树无法检测到特征的冗余。也就是说，这两个功能都获得了很高的排名。有没有其他方法可以检测出两个特征实际上是多余的？

【问题讨论】：

【解决方案1】：

也许您可以提取前 n 个重要特征，然后计算这些特征的成对 Spearman 或 Pearson 相关性，以便仅检测信息量最高的特征的冗余，因为计算所有成对特征相关性（与数字成二次方）可能不可行特征）。

不过，通过利用特征在决策树中作为节点的相对出现的统计数据，可能有更聪明的方法来做同样的事情。

【讨论】：