【发布时间】:2017-11-15 09:01:27
【问题描述】:
我正在尝试解决来自 kaggle 的泰坦尼克号数据集。 我已经完成了关于火车数据集的几乎所有工作 训练(12 个变量的 891 个 obs) 测试(11 个变量的 418 个 obs)
我使用过决策树(rpart 方法)
confusionMatrix(pred_train,train$Survived) 混淆矩阵和统计数据
Reference
Prediction 0 1
0 549 0
1 0 342
Accuracy : 1
95% CI : (0.996, 1)
No Information Rate : 0.616
P-Value [Acc > NIR] : <0.0000000000000002
Kappa : 1
Mcnemar's Test P-Value : NA
Sensitivity : 1.000
Specificity : 1.000
Pos Pred Value : 1.000
Neg Pred Value : 1.000
Prevalence : 0.616
Detection Rate : 0.616
Detection Prevalence : 0.616
Balanced Accuracy : 1.000
'Positive' Class : 0
我用pred <- predict (fit ,test ,type = "class")我明白了
model.frame.default 中的错误(条款,新数据,na.action = na.action, xlev = attr(object, : factor Name 有新级别 Abbott, Master。 呃……
我该如何解决这个问题,因为对火车和测试数据集(891 和 418)的观察存在差异,并且我已经从火车数据集中删除了标识符(passengerId)
【问题讨论】:
标签: r decision-tree predict