【发布时间】:2014-07-24 01:54:52
【问题描述】:
假设我正在使用 [StandardScaler, PCA & Lasso] 在管道上执行 GridSearchCV,其中网格搜索超过 2 个 PCA 参数值和 3 个 Lasso 参数值(因此有 6 个可能的参数组合)。在进行 CV 时,对于给定的折叠,算法是否仅标准化该折叠中的训练集(即不包括用于确定标准化器的均值/方差的折叠测试集)还是标准化整个折叠之外的数据集(在这种情况下,整个网格搜索过程只进行一次标准化)?
【问题讨论】:
标签: scikit-learn