【发布时间】:2018-09-07 15:25:58
【问题描述】:
我一直在研究机器学习模型,目前正在使用带有 GridSearchCV 的管道。我的数据使用 MinMaxScaler 进行缩放,并且我正在使用带有 RBR 内核的 SVR。现在我的问题是我的模型是完整的、合适的并且有一个不错的评估分数,我是否还需要使用 MinMaxScaler 缩放新数据以进行预测,或者我可以直接使用数据进行预测吗?我已经阅读了 3 本关于 scikit learn 的书籍,但它们都专注于特征工程和拟合。除了使用 predict 方法之外,它们并没有真正涵盖预测步骤中的任何其他步骤。
这是代码:
pipe = Pipeline([('scaler', MinMaxScaler()), ('clf', SVR())])
time_split = TimeSeriesSplit(n_splits=5)
param_grid = {'clf__kernel': ['rbf'],
'clf__C':[0.0001, 0.001],
'clf__gamma': [0.0001, 0.001]}
grid = GridSearchCV(pipe, param_grid, cv= time_split,
scoring='neg_mean_squared_error', n_jobs = -1)
grid.fit(X_train, y_train)
【问题讨论】:
-
您可以使用 pickle 或 joblib 将完整的 GridSearchCV 或从中找到的最佳估计器保存到文件中,然后在预测时加载。
标签: python machine-learning scikit-learn prediction