一种决策树算法，可以将分类变量的多个级别分为两组答案

【问题标题】：A decision tree algorithm with a way to club the many levels of a categorical variable into 2 groups一种决策树算法，可以将分类变量的多个级别分为两组
【发布时间】：2017-08-20 06:54:14
【问题描述】：

我有一个文件，其中包含有关客户是否拖欠贷款的数据。这个文件中有很多变量。一个这样的变量是“customer.employername”。这个变量有大约 1000 多个客户雇主名称的唯一值。我想在逻辑回归模型中使用这个变量，我想预测谁是违约者或非违约者，但由于这个变量有很多分类值，很难为每个级别创建虚拟变量。现在，我想在 R 中提出一个决策树算法，在其中我可以将这个“customer.employername”变量的所有级别分成两组 - 第 1 组（包括那些违约客户的所有雇主名称）第 2 组（包括所有未违约客户的雇主名称）。谁能建议我这个所需算法的编码？期待中的感谢

【问题讨论】：

标签： r decision-tree rpart

【解决方案1】：

您可以考虑RandomForest。实际上，随机森林是基于决策树的，但不是只有一棵决策树，而是生长一个决策树森林以达到给定的目标值，但这样做是通过替换来实现的。因此，您无需制作一棵树，而是通过替换引导您的数据集来制作数百棵树。根据我的经验，RandomForest 可以很好地处理分类变量或连续变量，或者两者的混合。一般来说，我通常也会得到非常可重复的结果。此外，该方法在 R 中得到很好的支持，有许多可用的库。

【讨论】：

我会调查的。我正在尝试使用 rpart 函数来解决这个问题，但由于我对 R 并不陌生，因此获得结果有点耗时。
在某种意义上，Rpart 和RandomForest 之间没有太大区别，因为它们都是构建树来预测。 RF 的最大优势是您正在构建许多树，并且可以替换。我真正喜欢 RF 的一个原因是，如果您有一些自相关变量也恰好是强预测因子，那么 RF 不太可能过拟合。只运行一个森林会使您处于严重的危险之中，根据您最终得到的树结构，随机获得好或坏的适合度。将 RF 想象成 Rpart，但多次自举。