【发布时间】:2016-12-26 07:23:30
【问题描述】:
我有一个每天都在增长的数据集,我担心它很快就会达到内存可能无法容纳的大小。我在我的应用程序中使用随机森林分类器和回归器。我听说过部分拟合,但我不知道随机森林是否可以以这种方式完成。即使数据集超出内存大小,我如何确保应用程序不会中断并继续良好运行。如果使用 svm 而不是 random forest ,情况也会有所不同。
【问题讨论】:
-
您的数据集有多大?你定义sklearn中的工作数量吗?请注意,有不同的优化方法。您始终可以使用不需要将完整的训练集加载到内存中的方法,而是使用批处理。采用随机梯度下降。
-
是的,数据最终会变得太大,可能会达到 TB。另外我想知道随机森林是否仍然有效。
标签: python machine-learning scikit-learn training-data