【问题标题】:Sklearn How to Save a Model Created From a Pipeline and GridSearchCV Using Joblib or Pickle?Sklearn 如何使用 Joblib 或 Pickle 保存从管道和 GridSearchCV 创建的模型?
【发布时间】:2025-11-26 22:25:02
【问题描述】:

使用pipelineGridSearchCV确定最佳参数后,我如何pickle/joblib这个过程以后再使用?当它是一个单一的分类器时,我知道如何做到这一点......

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl') 

但是在执行和完成gridsearch 之后,如何以最佳参数保存这个整体pipeline

我试过了:

  • joblib.dump(grid, 'output.pkl') - 但这抛弃了每个网格搜索 尝试(许多文件)
  • joblib.dump(pipeline, 'output.pkl') - 但我 不要认为它包含最好的参数

X_train = df['Keyword']
y_train = df['Ad Group']

pipeline = Pipeline([
  ('tfidf', TfidfVectorizer()),
  ('sgd', SGDClassifier())
  ])

parameters = {'tfidf__ngram_range': [(1, 1), (1, 2)],
              'tfidf__use_idf': (True, False),
              'tfidf__max_df': [0.25, 0.5, 0.75, 1.0],
              'tfidf__max_features': [10, 50, 100, 250, 500, 1000, None],
              'tfidf__stop_words': ('english', None),
              'tfidf__smooth_idf': (True, False),
              'tfidf__norm': ('l1', 'l2', None),
              }

grid = GridSearchCV(pipeline, parameters, cv=2, verbose=1)
grid.fit(X_train, y_train)

#These were the best combination of tuning parameters discovered
##best_params = {'tfidf__max_features': None, 'tfidf__use_idf': False,
##               'tfidf__smooth_idf': False, 'tfidf__ngram_range': (1, 2),
##               'tfidf__max_df': 1.0, 'tfidf__stop_words': 'english',
##               'tfidf__norm': 'l2'}

【问题讨论】:

    标签: python scikit-learn pipeline grid-search


    【解决方案1】:
    import joblib
    joblib.dump(grid.best_estimator_, 'filename.pkl')
    

    如果您想将对象转储到一个文件中 - 使用:

    joblib.dump(grid.best_estimator_, 'filename.pkl', compress = 1)
    

    【讨论】:

    • 作为一种最佳实践,一旦选择了最佳模型,就应该在整个数据集上重新训练它。为此,是否应该在整个数据集上重新训练相同的管道对象(从而应用相同的数据处理),然后部署该对象?还是应该重新创建一个新模型?
    • @Odisseo - 我的观点是你从头开始重新训练一个新模型。您仍然可以使用管道,但您将 grid_classifier 更改为最终分类器(例如随机森林)。将该分类器添加到管道中,使用所有数据重新训练。保存最终模型。 - 最终结果是您的整个数据集都在您想要的完整管道中进行了训练。例如,这可能会导致预处理略有不同,但它应该更健壮。实际上,这意味着您调用 pipeline.fit() 并保存管道。
    • @Odisseo 我有点晚了,但是...... GridSearchCV 会自动在整个数据集上重新训练模型,除非你明确要求它不要这样做。因此,当您训练 GridSearchCV 模型时,您用于预测的模型(换句话说,best_estimator_)已经在整个数据集上重新训练。