【发布时间】:2017-08-20 06:54:14
【问题描述】:
我有一个文件,其中包含有关客户是否拖欠贷款的数据。这个文件中有很多变量。一个这样的变量是“customer.employername”。这个变量有大约 1000 多个客户雇主名称的唯一值。我想在逻辑回归模型中使用这个变量,我想预测谁是违约者或非违约者,但由于这个变量有很多分类值,很难为每个级别创建虚拟变量。现在,我想在 R 中提出一个决策树算法,在其中我可以将这个“customer.employername”变量的所有级别分成两组 - 第 1 组(包括那些违约客户的所有雇主名称)第 2 组(包括所有未违约客户的雇主名称)。谁能建议我这个所需算法的编码?期待中的感谢
【问题讨论】:
标签: r decision-tree rpart