【问题标题】:Feature importance based on extremely randomize trees and feature redundancy基于极端随机化树和特征冗余的特征重要性
【发布时间】:2012-12-27 14:02:30
【问题描述】:

我正在使用 Scikit-learn Extremely Randomized Trees 算法来获取有关相对特征重要性的信息,并且我对如何对“冗余特征”进行排名有疑问。

如果我有两个相同(冗余)且对分类很重要的特征,则极度随机化的树无法检测到特征的冗余。也就是说,这两个功能都获得了很高的排名。有没有其他方法可以检测出两个特征实际上是多余的?

【问题讨论】:

  • 我建议将其迁移到 stats.stackexchange.com

标签: python-2.7 scikit-learn


【解决方案1】:

也许您可以提取前 n 个重要特征,然后计算这些特征的成对 Spearman 或 Pearson 相关性,以便仅检测信息量最高的特征的冗余,因为计算所有成对特征相关性(与数字成二次方)可能不可行特征)。

不过,通过利用特征在决策树中作为节点的相对出现的统计数据,可能有更聪明的方法来做同样的事情。

【讨论】:

    猜你喜欢
    • 2021-05-09
    • 2019-09-01
    • 2015-09-26
    • 2021-08-29
    • 2015-05-12
    • 2021-11-05
    • 2019-01-09
    • 2023-01-15
    • 1970-01-01
    相关资源
    最近更新 更多