【发布时间】:2015-08-03 05:30:20
【问题描述】:
我有一个 Spark 作业,它读取源表,执行一些 map/flatten/reduce 操作,然后将结果存储到我们用于报告的单独表中。目前,此作业是使用spark-submit 脚本手动运行的。我想安排它每天晚上运行,以便在一天开始时预先填充结果。我:
- 设置一个 cron 作业来调用
spark-submit脚本? - 将调度添加到我的作业类中,以便提交一次但每晚执行操作?
- Spark 中是否有内置机制或单独的脚本可以帮助我做到这一点?
我们在独立模式下运行 Spark。
任何建议表示赞赏!
【问题讨论】:
-
cron对我来说听起来很合理。 -
bytepadding.com/big-data/spark/…如何通过oozie提交作业。
标签: apache-spark