【发布时间】:2019-03-22 20:01:39
【问题描述】:
我是数据科学的新手,想寻求模型选择方面的帮助。
我已经建立了 8 个模型来预测 Salary vs year exp、职位名称和位置。 然后,我尝试通过 RMSE 比较 8 个模型。但最后,我不确定我应该选择哪种型号。 (记住,我更喜欢模型 8,因为经过随机森林测试,结果优于回归,然后我使用所有数据集制作最终版本,但解释 coef 比回归更难) 你能帮忙看看你更喜欢哪种型号吗?为什么? 在现实中,数据科学家是这样做的,还是他们有自动处理的方法?
1 RMSElm1:模型:线性回归,数据:训练 80%,测试 20% 没有任何插补 = 22067.58
2 RMSElm2:模型:线性回归,数据:训练 80%,测试 20%:插补一些我认为他们给出相同薪水概念的位置 = 22115.64
3 RMSElm3:模型:线性回归+逐步,数据:训练 80%,测试 20% 无任何插补 = 22081.06
4 RMSEdeep1:模型:深度学习(H2O 包激活 = 'Rectifier',隐藏 c(5,5),epochs = 100,),数据:训练 80%,测试 20%:无任何插补 = 16265.13
5 RMSErf1:模型:随机森林 (ntree =10),数据:训练 80%,测试 20% 无任何插补 = 14669.92
6 RMSErf2:模型:随机森林 (ntree =500),数据:训练 80%,测试 20% 无任何插补 [1] 14669.92
7 RMSErf3:模型:随机森林 (ntree =10,) 数据:K-Fold 10 无任何插补 [1] 14440.82
8 RMSErf4 模型:随机森林 (ntree =10),数据:所有数据集 无任何插补 [1] 13532.74
【问题讨论】:
标签: regression data-science random-forest data-science-experience model-comparison