【发布时间】:2015-01-01 20:21:14
【问题描述】:
我正在尝试找出是否可以在 Apache Spark 中使用 MLlib 对数据进行“增量训练”。
我的平台是 Prediction IO,它基本上是 Spark (MLlib)、HBase、ElasticSearch 和其他一些 Restful 部分的包装器。
在我的应用数据中实时插入“事件”,但要获得更新的预测结果,我需要“pio train”和“pio deploy”。这需要一些时间,并且在重新部署期间服务器会脱机。
我试图弄清楚我是否可以在“预测”阶段进行增量训练,但找不到答案。
【问题讨论】:
-
PIO 是否支持 Spark Streaming 和从 StreamRDD 扩充现有预测结果?
-
我刚查了一下,streamed linear regression 和 streamed clustering 已经实施了在线/增量培训。不幸的是,还没有流式协同过滤 (ALS) 或其他流式分类/回归方法。
-
查看此处了解可能的解决方案:stackoverflow.com/questions/41537470/…
标签: apache-spark machine-learning prediction apache-spark-mllib predictionio