【发布时间】:2019-04-01 12:34:50
【问题描述】:
当谈到网格搜索和拟合最终模型时,我有点困惑。我将其分为 2 部分:训练和测试。测试集仅用于最终评估。我只使用训练数据执行网格搜索。
假设有人使用交叉验证对多个超参数进行了网格搜索。网格搜索给出了超参数的最佳组合。下一步是训练模型,这就是我感到困惑的地方。我看到了两种可能性:
1) 不要训练模型。使用来自网格搜索的最佳模型的参数。
或
2) 不要使用来自网格搜索的最佳模型的参数。使用网格搜索中的最佳超参数组合在完整训练集上训练模型。
什么是正确的方法,1 还是 2?
【问题讨论】:
-
这里没有选项。 GridSearchCV 发现的是超参数(用于初始化和控制模型和学习),但模型仍然需要学习数据(模型学习的参数与 GridSearchCV 发现的超参数有很大不同。您只有选项 2 可行。GridSearchCV 甚至会为您执行此操作,您只需使用新(测试)数据调用
predict()。 -
感谢您的回复,Vivek Kumar。我想我可能有点不清楚。我不是在问你在最后一句话中提到的使用测试集的预测。我在询问如何拟合模型以获取稍后可用于例如的参数。预测。我应该 1) 使用最佳网格搜索中的拟合参数,还是应该使用网格搜索中的最佳超参数组合来拟合完整的训练集?