【问题标题】:A decision tree algorithm with a way to club the many levels of a categorical variable into 2 groups一种决策树算法,可以将分类变量的多个级别分为两组
【发布时间】:2017-08-20 06:54:14
【问题描述】:

我有一个文件,其中包含有关客户是否拖欠贷款的数据。这个文件中有很多变量。一个这样的变量是“customer.employername”。这个变量有大约 1000 多个客户雇主名称的唯一值。我想在逻辑回归模型中使用这个变量,我想预测谁是违约者或非违约者,但由于这个变量有很多分类值,很难为每个级别创建虚拟变量。现在,我想在 R 中提出一个决策树算法,在其中我可以将这个“customer.employername”变量的所有级别分成两组 - 第 1 组(包括那些违约客户的所有雇主名称)第 2 组(包括所有未违约客户的雇主名称)。谁能建议我这个所需算法的编码?期待中的感谢

【问题讨论】:

    标签: r decision-tree rpart


    【解决方案1】:

    您可以考虑RandomForest。实际上,随机森林基于决策树的,但不是只有一棵决策树,而是生长一个决策树森林以达到给定的目标值,但这样做是通过替换来实现的。因此,您无需制作一棵树,而是通过替换引导您的数据集来制作数百棵树。根据我的经验,RandomForest 可以很好地处理分类变量或连续变量,或者两者的混合。一般来说,我通常也会得到非常可重复的结果。此外,该方法在 R 中得到很好的支持,有许多可用的库。

    【讨论】:

    • 我会调查的。我正在尝试使用 rpart 函数来解决这个问题,但由于我对 R 并不陌生,因此获得结果有点耗时。
    • 在某种意义上,RpartRandomForest 之间没有太大区别,因为它们都是构建树来预测。 RF 的最大优势是您正在构建许多树,并且可以替换。我真正喜欢 RF 的一个原因是,如果您有一些自相关变量也恰好是强预测因子,那么 RF 不太可能过拟合。只运行一个森林会使您处于严重的危险之中,根据您最终得到的树结构,随机获得好或坏的适合度。将 RF 想象成 Rpart,但多次自举。
    猜你喜欢
    • 2018-12-12
    • 2021-09-21
    • 2014-08-23
    • 2017-01-27
    • 1970-01-01
    • 2020-11-13
    • 2016-09-11
    • 2021-12-02
    • 2018-05-03
    相关资源
    最近更新 更多