【问题标题】:Comprehending large decision tree diagram for variable selection?理解变量选择的大型决策树图?
【发布时间】:2019-11-22 02:54:19
【问题描述】:

我有 1100 个样本和 2000 个二进制变量,我想确定与我的连续响应变量(我使用 labelencoder 转换的变量)相比,哪些变量最重要和最重要。我不需要预测模型,我只想知道重要的变量。有人建议我使用决策树,它会首先按最重要的变量将样本分成两类。我创建了决策树,但我仍然不确定哪些变量最重要。我假设第一次分裂是最重要的变量,但是这两个叶子现在根据另外两个变量分裂成更多叶子呢?其中哪个更重要?如果我的第一个变量将 1100 个样本拆分为 1050 个真和 50 个假,那么拆分 1050 个样本的变量是否比拆分 50 个样本的变量更重要?我是决策树的新手,所以我可能会误解整个概念。我无法理解将值分成真假的条件以及这意味着什么。是否只是该变量的二进制文件将其拆分?另外,这可能是题外话,但我不明白许多框中的“基尼”是什么意思。

【问题讨论】:

标签: python scikit-learn


【解决方案1】:

基本决策树使用Gini Indexing or Information Gain 来决定哪些变量最重要,并将该变量放在树的顶部。您是否尝试过使用 Graphviz 打印您的树?你会得到这样的

【讨论】:

  • 是的,我能够对我的树进行可视化。对于上面的示例,我想我的问题是,如何区分 Pclass
  • @ChaseLewis - 这是一个分类模型,其中因变量是“幸存的”。我们想看看包含在该范围内的哪个解释变量(new_sex、Pclass 等)对乘客的生存最重要。最重要的变量是基尼值为 0.47 的“new_sex”。根据模型分配的
猜你喜欢
  • 2019-08-12
  • 2020-02-02
  • 2023-03-15
  • 2019-10-17
  • 2016-02-23
  • 2023-03-22
  • 2018-08-26
  • 2021-02-28
  • 2021-03-18
相关资源
最近更新 更多