【发布时间】:2015-07-20 18:19:42
【问题描述】:
我正在使用 Apache Spark 进行一些测试,用于我在大学的最后一个项目。我有一个数据集,用于生成决策树,并对新数据进行一些预测。
未来,我想把这个项目用在生产中,我会生成一个决策树(批处理),并通过网络界面或移动应用程序接收新数据,对那个条目的类别进行预测,并立即将结果告知用户。并且将这些新条目存储一段时间后生成新的决策树(批处理),并不断重复此过程。
尽管 Apache Spark 具有执行批处理的目的,但有流式 API 可以让您接收实时数据,在我的应用程序中,这些数据只会被构建在批处理中的模型使用决策树,以及预测的速度如何,它可以让用户快速得到答案。
我的问题是将 Apache Spark 与 Web 应用程序集成的最佳方法是什么(计划使用 Play Framework scala 版本)?
【问题讨论】:
-
“最佳”的标准是什么?
标签: scala apache-spark playframework-2.0 spark-streaming apache-spark-mllib