【发布时间】:2019-04-30 13:51:09
【问题描述】:
我有一个大型数据集 (>1 TB),我希望使用 GradientBoostingRegressor of Scikit-Learn 对其进行训练。
由于数据的大小远远超出了我的 RAM 容量,我正在考虑将数据分成多个块,并逐个“fit()”它们。
我了解将“warm_start”属性设置为 True 会在 fit() 之后保留权重。但是,似乎我还需要为每次连续调用 fit() 增加估算器的数量。
在将估计器的数量增加一个之前,是否可以先 fit() 所有数据块?
什么是我的问题的最佳解决方案,即。拟合超大数据集?
【问题讨论】:
-
只有估算器listed here 有能力做到这一点。
标签: python machine-learning scikit-learn bigdata gradient-descent