【问题标题】:Train a logistic regression model in parts for big data为大数据部分训练逻辑回归模型
【发布时间】:2019-07-11 09:26:19
【问题描述】:

我的数据集在预处理后由 160 万行和 17000 列组成。我想对这些数据使用逻辑回归,但是每次加载数据集时都会终止该过程。有没有办法可以分块训练逻辑回归模型,每次迭代都会更新系数。 sklearn 是否支持任何技术来解决我的问题?

【问题讨论】:

标签: python machine-learning nlp bigdata logistic-regression


【解决方案1】:

首先,请阅读this。在您的数据集上训练 LR 的时间是……有点高。 为避免这种情况,您可以在 sklearn 中使用 LR 的热启动参数并循环遍历您的数据块。

warm_start : bool, default: False 当设置为 True 时,重用解决方案 之前调用 fit 作为初始化,否则,只需擦除 以前的解决方案。对 liblinear 求解器无用。请参阅词汇表。

(来自here

更准确地说:

warm_start 当在同一个数据集上重复拟合一个估计器时, 但是对于多个参数值(比如求值 最大化性能,如网格搜索),可以重用 模型从之前的参数值中学习到的方面,保存 时间。当 warm_start 为真时,现有的拟合模型属性 用于在后续调用 fit 时初始化新模型

(来自here

【讨论】:

  • 此处可以使用引用的链接
  • 真的。更新以添加链接
猜你喜欢
  • 2020-10-26
  • 2018-05-01
  • 2016-02-01
  • 2020-02-25
  • 2016-01-31
  • 2015-01-07
  • 2018-02-27
  • 2020-10-27
  • 2015-11-18
相关资源
最近更新 更多