使用所有变量的 R 决策树答案

【问题标题】：R decision tree using all the variables使用所有变量的 R 决策树
【发布时间】：2014-04-22 00:28:53
【问题描述】：

我想执行决策树分析。我希望决策树使用模型中的所有变量。

我还需要绘制决策树。我怎样才能在 R 中做到这一点？

这是我的数据集的样本

> head(d)
  TargetGroup2000 TargetGroup2012 SmokingGroup_Kai PA_Score wheeze3 asthma3 tres3
1               2               2                4        2       0       0     0
2               2               2                4        3       1       0     0
3               2               2                5        1       0       0     0
4               2               2                4        2       1       0     0
5               2               3                3        1       0       0     0
6               2               3                3        2       0       0     0
>

我想用公式

myFormula <- wheeze3 ~ TargetGroup2000 + TargetGroup2012 + SmokingGroup_Kai + PA_Score

请注意，所有变量都是分类变量。

编辑：我的问题是一些变量没有出现在最终的决策树中。树的深度应该由惩罚参数 alpha 定义。我不知道如何设置这个惩罚，以便所有变量都出现在我的模型中。
换句话说，我想要一个最小化训练误差的模型。

【问题讨论】：

statmethods.net/advstats/cart.html
我尝试了各种建议的库，但我没有找到如何强制树使用所有变量
@Donbeo，你得到答案了吗，还是还在犹豫？
我没有。我目前不再感兴趣，但答案可能对社区有用

标签： r decision-tree

【解决方案1】：

如上所述，如果你想在所有变量上运行树，你应该把它写成

ctree(wheeze3 ~ ., d)

您提到的惩罚位于ctree_control()。您可以在那里设置 P 值以及最小拆分和存储桶大小。因此，为了最大限度地提高包含所有变量的机会，您应该执行以下操作：

ctree(wheeze3 ~ ., d, controls = ctree_control(mincriterion = 0.85, minsplit = 0, minbucket = 0))

问题是你会陷入过度拟合的风险。

您需要了解的最后一件事是，您可能无法在树的输出中看到所有变量的原因是因为它们对因变量没有显着影响。与线性或逻辑回归不同，它将显示所有变量并为您提供 P 值以确定它们是否显着，决策树不会返回不重要的变量，即它不会被它们分割。

为了更好地了解 ctree 的工作原理，请看这里：https://stats.stackexchange.com/questions/12140/conditional-inference-trees-vs-traditional-decision-trees

【讨论】：

【解决方案2】：

最简单的方法是使用核心 R 中的 rpart 包。

library(rpart) 
model <- rpart( wheeze3 ~ ., data=d ) 

summary(model)
plot(model)
text(model)

公式参数中的.表示使用所有其他变量作为自变量。

【讨论】：

【解决方案3】：

          plot(ctree(myFormula~., data=sta))

【讨论】：