【发布时间】:2015-07-14 03:01:33
【问题描述】:
我正在尝试为以下数据集上的预测模型构建决策树:
这是我的代码:
fitTree = rpart(classLabel ~ from_station_id + start_day + start_time
+ gender + age, method = "class", data=d)
fancyRpartPlot(fitTree)
但是结果决策树只使用了其中一个属性(from_station_id)作为“拆分属性”,并不关心其他属性的值(start_day、start_time、gender、age)。结果如下:
Click 放大。
我做错了什么?
【问题讨论】:
-
从您的数据 sn-p 看来,在
from_station_id == 131的情况下,“from_station_id”比任何其他变量都更能预测“classLabel == 2”。从您的输出看来,其他 stationID 也是如此。所以你做错了什么是假设 rpart 将使用所有变量,即使它们的预测性较差。 -
如何构建另一个模型,或者通过删除 from_station_id 列,或者创建一个新列 from_station_id_grp 分组为预测值较低的值(您可以为此使用 Hmisc::cut2 函数,g=5 参数) ?
标签: r prediction decision-tree