【发布时间】:2017-07-24 18:31:10
【问题描述】:
我已经看到我们可以使用 scikit-learn 库和 pyspark 来处理单个工作人员的分区。
但是,如果我们想处理分布式的训练数据集,并且说回归算法应该关注整个数据集,该怎么办。由于 scikit learn 没有与 RDD 集成,我假设它不允许在整个数据集上运行算法,而只能在该特定分区上运行。如果我错了,请纠正我..
spark-sklearn 解决这个问题有多好
【问题讨论】:
标签: scikit-learn pyspark