【发布时间】:2023-03-17 19:28:02
【问题描述】:
AIM:我想了解为什么RMSE 在较小的树上会增加。
上下文:我正在学习rpart 算法。我有一些数据,我把它分成三个部分(训练、验证、测试)。我正在使用this Kaggle dataset.
我适合这个模型:
homes_model <- rpart(formula = SalePrice ~ .,
data = homes_train,
method = "anova")
有了这个基础树:
然后,我计算了测试数据的 RMSE:
pred_base <- predict(object=homes_model,
newdata = homes_test)
library(Metrics)
rmse_base <- rmse(actual=homes_test$SalePrice, #Actual values
predicted = pred_base )
第一棵树的rmse_base 是:46894。
然后,我查看了cptable,根据最低的xerror+xstd 规则选择了最好的树。
CP nsplit rel error xerror xstd
1 0.446 0 1.00 1.00 0.096
2 0.114 1 0.55 0.56 0.054
3 0.078 2 0.44 0.48 0.055
4 0.035 3 0.36 0.41 0.037
5 0.021 4 0.33 0.40 0.046
6 0.018 5 0.31 0.41 0.047
7 0.017 6 0.29 0.39 0.045
8 0.017 7 0.27 0.39 0.045
9 0.013 8 0.25 0.37 0.043
10 0.010 9 0.24 0.35 0.043
我选择了有 7 个分裂的树:
opt_index <- 7
cp_opt <- homes_model$cptable[opt_index, "CP"]
# Prune the model (to optimized cp value)
homes_model_opt <- prune(tree = homes_model,
cp = cp_opt)
我画的:
然后我在测试数据的这棵较小的树上再次计算了RMSE:
#Computing predicted values
pred_opt <- predict(object=homes_model_opt,
newdata = homes_test)
#Compute RMSE
rmse_opt <- rmse(actual=homes_test$SalePrice, #Actual values
predicted = pred_opt) #Predicted values
它从46894 上升到49964。为什么?较小的树不应该更好地适应看不见的数据吗?
【问题讨论】:
-
不是编程问题,更适合Cross Validated
-
这似乎更像是一个统计问题而不是编码问题,因此您可以尝试将其移至Cross Validated。从第 2 章开始,Introduction to Statistical Learning 这本书对这类主题进行了一些非常容易理解的讨论。
标签: r machine-learning regression cart rpart