【发布时间】:2019-04-22 13:02:44
【问题描述】:
目前我们的项目在 MR 上,我们使用 Oozie 来编排我们的 MR Jobs。现在我们正在迁移到 Spark,并且想知道在 CDH 集群上调度/触发 Spark 作业的推荐方法。请注意,CDH Oozie 不支持 Spark2 作业。所以请为此提供一个替代方案。
【问题讨论】:
标签: java scala apache-spark hadoop cloudera
目前我们的项目在 MR 上,我们使用 Oozie 来编排我们的 MR Jobs。现在我们正在迁移到 Spark,并且想知道在 CDH 集群上调度/触发 Spark 作业的推荐方法。请注意,CDH Oozie 不支持 Spark2 作业。所以请为此提供一个替代方案。
【问题讨论】:
标签: java scala apache-spark hadoop cloudera
上次我查看时,Hue 在 Worlflow 编辑器中有一个 Spark 选项。如果 Cloudera 不支持它,我不确定它为什么会在那里......
不过,CDH Oozie 确实支持纯 shell 脚本,但您需要确保所有 NodeManager 都将在本地服务器上提供 spark-submit 命令。
如果这不起作用,它还支持用于运行 JAR 的 Java 操作,因此您可以编写所有 Spark 脚本,以从那里加载任何配置的 main 方法开始
【讨论】:
一旦您从 shell 提交了 spark 作业,例如:
spark-submit <script_path> <arguments_list>
它被提交到 CDH 集群。您将立即能够在 Hue 中看到 spark 作业及其进度。这就是我们触发 spark 作业的方式。
此外,要编排一系列作业,您可以在其周围使用 shell 脚本包装器。或者,您可以使用 cron 作业定时触发。
【讨论】: