【问题标题】:How to save the model after doing pipeline fit?进行管道拟合后如何保存模型?
【发布时间】:2018-11-08 07:25:02
【问题描述】:

我在 Spark ML 中编写了这段代码

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.Pipeline

val lr = new LogisticRegression()
val pipeline = new Pipeline()
                .setStages(Array(fooIndexer, fooHotEncoder, assembler, lr))
val model = pipeline.fit(training)

此代码需要很长时间才能运行。是否有可能在运行 pipeline.fit 后将模型保存在 HDFS 上,这样我就不必一次又一次地运行它?

编辑:另外,当我必须在模型上应用transform 以便进行预测时,如何从 HDFS 加载它。

【问题讨论】:

    标签: apache-spark apache-spark-ml


    【解决方案1】:

    直接来自official documentation - 保存:

    // Now we can optionally save the fitted pipeline to disk
    model.write.overwrite().save("/tmp/spark-logistic-regression-model")
    

    和加载:

    // And load it back in during production
    val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model")
    

    相关:

    【讨论】:

      猜你喜欢
      • 2021-11-09
      • 1970-01-01
      • 1970-01-01
      • 2020-12-15
      • 2022-06-14
      • 2017-11-27
      • 1970-01-01
      • 2019-11-16
      • 2012-12-13
      相关资源
      最近更新 更多