【发布时间】:2020-11-05 09:54:15
【问题描述】:
我的问题与 GridSearchCV、RidgeCV 和 StackingClassifier/Regressor 有关。
- 堆叠分类器/回归器-AFAIK,它首先为每个基本估计器单独训练整个训练集。然后,它使用交叉验证方案,使用每个基本估计器的预测作为新特征来训练新的最终估计器。来自文档:“为了概括和避免过度拟合,final_estimator 在内部使用 sklearn.model_selection.cross_val_predict 对样本外进行训练。”
我的问题是,这到底是什么意思?是否将训练数据分成 k 折,然后对于每折,在折的训练部分训练最终估计器,在折的测试部分对其进行测试,然后从折中获取最终估计器的权重最好成绩?还是什么?
- 我想我可以将 GridSearchCV 和 RidgeCV 归为同一个问题,因为它们非常相似。 (尽管 ridgeCV 默认使用一个与所有 CV)
-为了找到最好的超参数,他们是否在所有折叠上做一个 CV,对于每个超参数,找到平均得分最高的超参数,然后在找到最好的超参数之后,用最好的超参数训练模型,使用整个训练集?还是我看错了?
如果有人能对此有所了解,那就太好了。谢谢!
【问题讨论】:
标签: python scikit-learn cross-validation gridsearchcv