【发布时间】:2017-10-20 10:49:16
【问题描述】:
我目前正在研究客户流失问题的预测模型。
每当我尝试运行以下模型时,都会收到此错误:至少有一个类级别不是有效的 R 变量名。这将在生成类概率时导致错误,因为变量名称将转换为 X0、X1。请使用可用作有效 R 变量名称的因子水平。
fivestats <- function(...) c( twoClassSummary(...), defaultSummary(...))
fitControl.default <- trainControl(
method = "repeatedcv"
, number = 10
, repeats = 1
, verboseIter = TRUE
, summaryFunction = fivestats
, classProbs = TRUE
, allowParallel = TRUE)
set.seed(1984)
rpartGrid <- expand.grid(cp = seq(from = 0, to = 0.1, by = 0.001))
rparttree.fit.roc <- train(
churn ~ .
, data = training.dt
, method = "rpart"
, trControl = fitControl.default
, tuneGrid = rpartGrid
, metric = 'ROC'
, maximize = TRUE
)
在附图中您可以看到我的数据,我已经将一些数据从 chr 转换为因子变量。
我不明白我的问题是什么,如果我将整个数据转换为因子,那么例如变量 total_airtime_out 可能会有大约 9000 个因子。
感谢您的任何帮助!
【问题讨论】:
-
能否请您添加虚拟数据或示例 + 代码(包括包),用它可以重新创建您的错误消息?谢谢。
标签: r classification prediction