【发布时间】:2019-03-01 22:47:06
【问题描述】:
我们正在使用 spark-ml 从现有数据构建模型。每天都有新数据出现。
有没有一种方法,我们可以只读取新数据并更新现有模型,而不必每次都读取所有数据并重新训练?
【问题讨论】:
-
嗨,Jeffery 有没有办法与你联系,我也在寻找类似的解决方案
标签: apache-spark apache-spark-mllib apache-spark-ml
我们正在使用 spark-ml 从现有数据构建模型。每天都有新数据出现。
有没有一种方法,我们可以只读取新数据并更新现有模型,而不必每次都读取所有数据并重新训练?
【问题讨论】:
标签: apache-spark apache-spark-mllib apache-spark-ml
这取决于您使用的模型,但对于某些 Spark 完全符合您want 的功能。您可以查看StreamingKMeans、StreamingLinearRegressionWithSGD、StreamingLogisticRegressionWithSGD 以及更广泛的StreamingLinearAlgorithm。
【讨论】: