【发布时间】:2021-03-09 19:10:05
【问题描述】:
我试图了解 Gridsearchcv 的逻辑是如何工作的。看了here,官方的documentation,还有源码,但是没搞明白:
Gridsearchcv 背后的一般逻辑是什么?
澄清:
- 如果我使用默认的 cv = 5,输入数据的分割百分比是多少 进入:训练、验证和测试?
- Gridsearchcv 多久执行一次这样的拆分,它如何决定哪个观察属于训练/验证/测试?
- 既然已经完成了交叉验证,那么对于超参数调整,平均在哪里发挥作用?即,最优超参数值是否可以优化某种平均值?
这个问题here 与我有同感,但我不知道这些信息是最新的,我不确定我是否了解那里的所有信息。例如,根据OP,我的理解是:
- 测试集占输入数据集的 25%,创建一次。
- 训练集和验证集的联合对应创建一次,这个联合是原始数据的75%。
- 然后,该过程创建 5 个(因为 cv = 5)进一步将这 75% 拆分为 60% 训练和 15% 验证
- 优化的超参数值是优化这 5 次拆分中某些指标的平均值的值。
这种理解是否正确并且现在仍然适用?以及程序如何将原来的25%-75%拆分?
【问题讨论】:
标签: python machine-learning scikit-learn