我们是否可以更新 spark-ml/spark-mllib 中的现有模型？答案

【问题标题】：Whether we can update existing model in spark-ml/spark-mllib?我们是否可以更新 spark-ml/spark-mllib 中的现有模型？
【发布时间】：2019-03-01 22:47:06
【问题描述】：

我们正在使用 spark-ml 从现有数据构建模型。每天都有新数据出现。

有没有一种方法，我们可以只读取新数据并更新现有模型，而不必每次都读取所有数据并重新训练？

【问题讨论】：

嗨，Jeffery 有没有办法与你联系，我也在寻找类似的解决方案

标签： apache-spark apache-spark-mllib apache-spark-ml

【解决方案1】：

这取决于您使用的模型，但对于某些 Spark 完全符合您want 的功能。您可以查看StreamingKMeans、StreamingLinearRegressionWithSGD、StreamingLogisticRegressionWithSGD 以及更广泛的StreamingLinearAlgorithm。

【讨论】：

【解决方案2】：

为了完成 Florent 的回答，如果您不在流式上下文中，一些 Spark mllib 模型支持 initialModel 作为增量更新的起点。例如，请参阅 KMeans 或 GMM。

【讨论】：