理解变量选择的大型决策树图？答案

【问题标题】：Comprehending large decision tree diagram for variable selection?理解变量选择的大型决策树图？
【发布时间】：2019-11-22 02:54:19
【问题描述】：

我有 1100 个样本和 2000 个二进制变量，我想确定与我的连续响应变量（我使用 labelencoder 转换的变量）相比，哪些变量最重要和最重要。我不需要预测模型，我只想知道重要的变量。有人建议我使用决策树，它会首先按最重要的变量将样本分成两类。我创建了决策树，但我仍然不确定哪些变量最重要。我假设第一次分裂是最重要的变量，但是这两个叶子现在根据另外两个变量分裂成更多叶子呢？其中哪个更重要？如果我的第一个变量将 1100 个样本拆分为 1050 个真和 50 个假，那么拆分 1050 个样本的变量是否比拆分 50 个样本的变量更重要？我是决策树的新手，所以我可能会误解整个概念。我无法理解将值分成真假的条件以及这意味着什么。是否只是该变量的二进制文件将其拆分？另外，这可能是题外话，但我不明白许多框中的“基尼”是什么意思。

【问题讨论】：

Best model for variable selection with big data?的可能重复
我知道你想知道这个问题的答案，但请不要重复发布相同的问题：stackoverflow.com/questions/56977952/…
我觉得我得到了原始问题的答案。但我有一个关于决策树如何工作的不同问题。我只是重复了我的问题，以便上下文有意义。

标签： python scikit-learn

【解决方案1】：

基本决策树使用Gini Indexing or Information Gain 来决定哪些变量最重要，并将该变量放在树的顶部。您是否尝试过使用 Graphviz 打印您的树？你会得到这样的

【讨论】：

是的，我能够对我的树进行可视化。对于上面的示例，我想我的问题是，如何区分 Pclass
@ChaseLewis - 这是一个分类模型，其中因变量是“幸存的”。我们想看看包含在该范围内的哪个解释变量（new_sex、Pclass 等）对乘客的生存最重要。最重要的变量是基尼值为 0.47 的“new_sex”。根据模型分配的