【发布时间】:2020-12-20 13:08:55
【问题描述】:
我们有一个机器学习分类器模型,我们使用 pandas 数据框和标准 sklearn 管道(StandardScaler、RandomForestClassifier、GridSearchCV 等)进行了训练。我们正在开发 Databricks,并希望使用 Spark 提供的并行计算将此管道扩展到大型数据集。
将我们的 sklearn 管道转换为并行计算的最快方法是什么? (我们可以根据需要在 pandas 和 spark DFs 之间轻松切换。)
就上下文而言,我们的选择似乎是:
- 使用 MLLib 重写管道(耗时)
- 使用 sklearn-spark 桥接库
在选项 2 上,Spark-Sklearn 似乎是 deprecated,但 Databricks 而不是 recommends,我们使用 joblibspark。但是,这会在 Databricks 上引发异常:
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
from joblibspark import register_spark
from sklearn.utils import parallel_backend
register_spark() # register spark backend
iris = datasets.load_iris()
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}
svr = svm.SVC(gamma='auto')
clf = GridSearchCV(svr, parameters, cv=5)
with parallel_backend('spark', n_jobs=3):
clf.fit(iris.data, iris.target)
加注
py4j.security.Py4JSecurityException: Method public int org.apache.spark.SparkContext.maxNumConcurrentTasks() is not whitelisted on class class org.apache.spark.SparkContext
【问题讨论】:
标签: python pyspark scikit-learn databricks apache-spark-ml