与 RMSE 的模型比较答案

【问题标题】：Model comparison with RMSE与 RMSE 的模型比较
【发布时间】：2019-03-22 20:01:39
【问题描述】：

我是数据科学的新手，想寻求模型选择方面的帮助。

我已经建立了 8 个模型来预测 Salary vs year exp、职位名称和位置。然后，我尝试通过 RMSE 比较 8 个模型。但最后，我不确定我应该选择哪种型号。（记住，我更喜欢模型 8，因为经过随机森林测试，结果优于回归，然后我使用所有数据集制作最终版本，但解释 coef 比回归更难）你能帮忙看看你更喜欢哪种型号吗？为什么？在现实中，数据科学家是这样做的，还是他们有自动处理的方法？

1 RMSElm1：模型：线性回归，数据：训练 80%，测试 20% 没有任何插补 = 22067.58

2 RMSElm2：模型：线性回归，数据：训练 80%，测试 20%：插补一些我认为他们给出相同薪水概念的位置 = 22115.64

3 RMSElm3：模型：线性回归+逐步，数据：训练 80%，测试 20% 无任何插补 = 22081.06

4 RMSEdeep1：模型：深度学习（H2O 包激活 = 'Rectifier'，隐藏 c(5,5)，epochs = 100，），数据：训练 80%，测试 20%：无任何插补 = 16265.13

5 RMSErf1：模型：随机森林 (ntree =10)，数据：训练 80%，测试 20% 无任何插补 = 14669.92

6 RMSErf2：模型：随机森林 (ntree =500)，数据：训练 80%，测试 20% 无任何插补 [1] 14669.92

7 RMSErf3：模型：随机森林 (ntree =10,) 数据：K-Fold 10 无任何插补 [1] 14440.82

8 RMSErf4 模型：随机森林 (ntree =10)，数据：所有数据集无任何插补 [1] 13532.74

【问题讨论】：

标签： regression data-science random-forest data-science-experience model-comparison

【解决方案1】：

在回归问题中，mse 或 rmse 是一种确定模型表现如何的方法。低 rmse 或 mse 是首选。因此，请使用给出最低 mse 或 rmse 值的模型，并在测试数据上进行尝试。集成方法通常给出最好的结果。 XGBoost 常用于比赛中。

可能存在过度拟合的情况，您可能会在训练数据中获得非常低的 rmse，但在测试数据中获得高 rmse。因此，使用交叉验证被认为是一种很好的做法。

您可能想检查一下：https://stats.stackexchange.com/questions/56302/what-are-good-rmse-values

【讨论】：