【问题标题】:Feature importances, discretization and criterion in decision trees决策树中的特征重要性、离散化和标准
【发布时间】:2015-08-13 23:47:12
【问题描述】:

我正在处理数字特征,我想在 sklearn 中使用决策树分类器来查找特征重要性。

所以,如果我选择熵标准进行分割,信息增益被用作分割数据的杂质度量。我猜这相当于 Fayyad & Irani 二进制离散化。

最后,分类器返回一个名为“特征重要性”的属性。

特征重要性。越高,特征越重要。 特征的重要性被计算为(归一化的)总 降低该特征带来的标准。这也是众所周知的 作为基尼系数 [R195]。

我的问题是,即使我使用信息增益来找到最佳分割,“特征重要性”是否会返回在使用熵标准找到的分割中测量的基尼重要性值?

【问题讨论】:

    标签: classification decision-tree feature-selection entropy information-theory


    【解决方案1】:

    是的!有一种迭代方法来计算不同分裂点的基尼重要性,一旦达到终止标准(最小描述长度),就会返回最佳分裂点。您可以在此处通过玩具示例找到更多信息:http://clear-lines.com/blog/post/Discretizing-a-continuous-variable-using-Entropy.aspx

    【讨论】:

      猜你喜欢
      • 2016-03-18
      • 2018-08-16
      • 2020-02-07
      • 2019-01-11
      • 2021-11-05
      • 2012-07-19
      • 2017-07-11
      • 2019-09-08
      相关资源
      最近更新 更多