【发布时间】:2018-11-08 07:25:02
【问题描述】:
我在 Spark ML 中编写了这段代码
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.Pipeline
val lr = new LogisticRegression()
val pipeline = new Pipeline()
.setStages(Array(fooIndexer, fooHotEncoder, assembler, lr))
val model = pipeline.fit(training)
此代码需要很长时间才能运行。是否有可能在运行 pipeline.fit 后将模型保存在 HDFS 上,这样我就不必一次又一次地运行它?
编辑:另外,当我必须在模型上应用transform 以便进行预测时,如何从 HDFS 加载它。
【问题讨论】:
标签: apache-spark apache-spark-ml