【发布时间】:2015-07-06 10:42:17
【问题描述】:
我在多核服务器上使用 scikit-learn 的 RandomForestClassifier 来适应大型数据集,因此我通过设置 n_jobs = -1 来利用其并行化功能。
同时,我想执行交叉验证(与cross_val_score)并利用其并行化功能(同样,通过设置n_jobs = -1)。
我的问题是使用 both 类型的并行化是否会比仅使用 single 类型的并行化显着提高模型构建速度。如果后者是真的,那么我不确定我应该更喜欢哪种类型的并行化。 scikit-learn 文档和 SO 没有提供关于如何使两种类型的并行化协同工作的任何想法。
请让我知道是否可以为您提供有关我的设置的更多信息,如果提供更有帮助的答案有用的话。谢谢!
【问题讨论】:
-
为什么不用数据的子样本来试验计时?
-
在模型拟合之后 不会执行
cross_val_score吗? -
不,折叠有一个循环,在其中调用 fit。
标签: python parallel-processing machine-learning scikit-learn cross-validation