为什么 RMSE 值在较小的树上增加（RPART）答案

【问题标题】：Why do RMSE values increase on a smaller tree (RPART)为什么 RMSE 值在较小的树上增加（RPART）
【发布时间】：2023-03-17 19:28:02
【问题描述】：

AIM：我想了解为什么RMSE 在较小的树上会增加。

上下文：我正在学习rpart 算法。我有一些数据，我把它分成三个部分（训练、验证、测试）。我正在使用this Kaggle dataset.

我适合这个模型：

homes_model <- rpart(formula = SalePrice ~ ., 
                     data = homes_train, 
                     method = "anova")

有了这个基础树：

然后，我计算了测试数据的 RMSE：

pred_base <- predict(object=homes_model,
                newdata = homes_test)

library(Metrics)
rmse_base <- rmse(actual=homes_test$SalePrice, #Actual values
     predicted = pred_base )

第一棵树的rmse_base 是：46894。

然后，我查看了cptable，根据最低的xerror+xstd 规则选择了最好的树。

    CP nsplit rel error xerror  xstd
1  0.446      0      1.00   1.00 0.096
2  0.114      1      0.55   0.56 0.054
3  0.078      2      0.44   0.48 0.055
4  0.035      3      0.36   0.41 0.037
5  0.021      4      0.33   0.40 0.046
6  0.018      5      0.31   0.41 0.047
7  0.017      6      0.29   0.39 0.045
8  0.017      7      0.27   0.39 0.045
9  0.013      8      0.25   0.37 0.043
10 0.010      9      0.24   0.35 0.043

我选择了有 7 个分裂的树：

opt_index <- 7
cp_opt <- homes_model$cptable[opt_index, "CP"]

# Prune the model (to optimized cp value)
homes_model_opt <- prune(tree = homes_model, 
                         cp = cp_opt)

我画的：

然后我在测试数据的这棵较小的树上再次计算了RMSE：

#Computing predicted values 
pred_opt <- predict(object=homes_model_opt,
                newdata = homes_test)

#Compute RMSE
rmse_opt <- rmse(actual=homes_test$SalePrice, #Actual values
     predicted = pred_opt) #Predicted values

它从46894 上升到49964。为什么？较小的树不应该更好地适应看不见的数据吗？

【问题讨论】：

不是编程问题，更适合Cross Validated
这似乎更像是一个统计问题而不是编码问题，因此您可以尝试将其移至Cross Validated。从第 2 章开始，Introduction to Statistical Learning 这本书对这类主题进行了一些非常容易理解的讨论。

标签： r machine-learning regression cart rpart

【解决方案1】：

在大到足以表示数据变化的树和不大到过拟合的树之间总是存在平衡。更大的树有时会产生更好的结果的原因是它们可以更精细地划分数据，从而代表细微差别。较小的树有时会产生更好的结果的原因是过度拟合的问题较少。但是如果最小的树总是最好的，那为什么不只使用一个节点呢？仅使用根节点会使用平均值来估计值 - 不太可能真的准确。必须平衡这两种相互冲突的力量才能获得最佳结果。

【讨论】：