为大数据部分训练逻辑回归模型答案

【问题标题】：Train a logistic regression model in parts for big data为大数据部分训练逻辑回归模型
【发布时间】：2019-07-11 09:26:19
【问题描述】：

我的数据集在预处理后由 160 万行和 17000 列组成。我想对这些数据使用逻辑回归，但是每次加载数据集时都会终止该过程。有没有办法可以分块训练逻辑回归模型，每次迭代都会更新系数。 sklearn 是否支持任何技术来解决我的问题？

【问题讨论】：

您使用的是哪种逻辑回归算法？
一种选择是partial_fit LR & SVM 的SGDClassifier 方法；见Is it possible to train a sklearn model (eg SVM) incrementally?

【解决方案1】：

首先，请阅读this。在您的数据集上训练 LR 的时间是……有点高。为避免这种情况，您可以在 sklearn 中使用 LR 的热启动参数并循环遍历您的数据块。

warm_start : bool, default: False 当设置为 True 时，重用解决方案之前调用 fit 作为初始化，否则，只需擦除以前的解决方案。对 liblinear 求解器无用。请参阅词汇表。

（来自here）

更准确地说：

warm_start 当在同一个数据集上重复拟合一个估计器时，但是对于多个参数值（比如求值最大化性能，如网格搜索），可以重用模型从之前的参数值中学习到的方面，保存时间。当 warm_start 为真时，现有的拟合模型属性用于在后续调用 fit 时初始化新模型。

（来自here）

【讨论】：