【问题标题】:python scikit learn hyperparameter tuning with out of core learningpython scikit通过核心学习学习超参数调优
【发布时间】:2026-02-15 09:25:02
【问题描述】:

目前我正在使用

clf = SGDClassifier(loss='log', random_state=1, n_iter=1)

为我训练一个预测模型。但是,训练数据非常大,所以我使用的是核心学习。

clf.partial_fit(X_train, y_train, classes=classes)

另外,我想通过例如GridSearchCV(http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) 实现超参数调整

但似乎GridSearchCV 没有提供partial_fit 方法,因此无法进行核外学习,我必须将整个数据集保存在内存中。有没有办法在仍然使用核外学习的同时进行超参数调整?

【问题讨论】:

  • 嗨 Micha,你解决了吗?找到解决问题的方法了吗?
  • @manishthapliyal 不幸的是,还没有。
  • 我找到了一种使用随机森林进行增量学习的方法,有一个名为 scikit-graden 的库,他们有一个 Mondarian 分类器,可以将增量或在线学习添加到随机森林

标签: python machine-learning scikit-learn grid-search large-data


【解决方案1】:

我找到了一种使用随机森林进行增量学习的方法,有一个名为 scikit-graden 的库,他们有一个 mondrian 分类器,可以将增量或在线学习添加到随机森林。

查看这个关于蒙德里安森林的博客: https://medium.com/mlrecipies/mondrian-forests-making-random-forests-better-and-efficient-b27814c681e5

【讨论】: