【发布时间】:2014-06-27 23:15:14
【问题描述】:
我构建了一个线性回归模型 (lm.full),并尝试在测试数据集上测试该模型。当我尝试根据测试数据进行预测时,由于具有许多唯一值的功能/预测器而遇到问题。麻烦的特性是 cbsa(基于核心的统计区域)。
train 和 test 具有相同的唯一值。我不确定问题是什么,因为如果因子变量的每个级别都适合训练模型,那么我认为我应该能够预测值测试。
我这里将数据划分为测试集和训练集:
sample.size<-floor(0.95*nrow(tvwm))
# Make sure that seeds different
set.seed(15)
tvwm_train_ind <- sample(seq_len(nrow(tvwm)), size = sample.size)
tvwm_train <- tvwm[tvwm_train_ind,]
tvwm_test <- tvwm[-tvwm_train_ind,]
这是预测:
> predict(object=lm.full, newdata=tvwm_test, type = "response")
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) :
factor factor(cbsa_name) has new levels Boston-Cambridge-Newton, MA-NH, Detroit-Warren-Livonia, MI, Virginia Beach-Norfolk-Newport News, VA-NC
【问题讨论】:
标签: r