使用 scikit-learn 使用管道时出错答案

【问题标题】：Error when using scikit-learn to use pipelines使用 scikit-learn 使用管道时出错
【发布时间】：2018-07-21 10:55:52
【问题描述】：

我正在尝试使用 StandardScaler 执行缩放并定义一个 KNeighborsClassifier（创建缩放器和估计器的管道）

最后，我想为上面创建一个网格搜索交叉验证器，其中 param_grid 将是一个包含 n_neighbors 作为超参数和 k_vals 作为值的字典。

def kNearest(k_vals):

    skf = StratifiedKFold(n_splits=5, random_state=23)

    svp = Pipeline([('ss', StandardScaler()),
                ('knc', neighbors.KNeighborsClassifier())])

    parameters = {'n_neighbors': k_vals}

    clf = GridSearchCV(estimator=svp, param_grid=parameters, cv=skf)

    return clf

但是这样做会给我一个错误提示

Invalid parameter n_neighbors for estimator Pipeline. Check the list of available parameters with `estimator.get_params().keys()`.

我已阅读文档，但仍然不太了解错误指示以及如何修复它。

【问题讨论】：

您可以尝试使用参数 = {'knn__n_neighbors': k_vals} 的代码。注意 knn 后的双 _。这没有拼错，这是正确的语法。

标签： python scikit-learn pipeline

【解决方案1】：

你是对的，这并没有被 scikit-learn 详细记录。（在类文档字符串中对它的零引用。）

如果在网格搜索中使用管道作为估计器，则在指定参数网格时需要使用特殊语法。具体来说，您需要使用 步骤名称 后跟双下划线，然后是参数名称，就像您将其传递给估算器一样。即

'<named_step>__<parameter>': value

在你的情况下：

parameters = {'knc__n_neighbors': k_vals}

应该可以解决问题。

这里knc 是您管道中的一个命名步骤。有一个属性将这些步骤显示为字典：

svp.named_steps

{'knc': KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
            metric_params=None, n_jobs=1, n_neighbors=5, p=2,
            weights='uniform'),
 'ss': StandardScaler(copy=True, with_mean=True, with_std=True)}

正如您的回溯所暗示的那样：

svp.get_params().keys()
dict_keys(['memory', 'steps', 'ss', 'knc', 'ss__copy', 'ss__with_mean', 'ss__with_std', 'knc__algorithm', 'knc__leaf_size', 'knc__metric', 'knc__metric_params', 'knc__n_jobs', 'knc__n_neighbors', 'knc__p', 'knc__weights'])

对此的一些官方引用：

pipelines 上的用户指南
Sample pipeline for text feature extraction and evaluation

【讨论】：