如何使用 spark-submit 获取 spark SUBMISSION_ID？答案

【问题标题】：How to get spark SUBMISSION_ID with spark-submit?如何使用 spark-submit 获取 spark SUBMISSION_ID？
【发布时间】：2019-03-24 23:08:59
【问题描述】：

很多地方都需要SUBMISSION_ID，比如spark-submit --status和Spark REST API。但是当我使用spark-submit 命令提交spark 作业时，我怎样才能得到这个SUBMISSION_ID？

附：

我使用 python [popen][2] 开始 spark-submit 工作。我想要SUBMISSION_ID 所以我的python 程序可以通过REST API 监控spark 作业状态：<ip>:6066/v1/submissions/status/<SUBMISSION_ID>

【问题讨论】：

请看看这个。 stackoverflow.com/questions/29990153/…

标签： apache-spark

【解决方案1】：

感谢@Pandey 提供的线索。答案https://stackoverflow.com/a/37980813/5634636对我帮助很大。

TL;DR

如果你想在本地提交spark job，答案https://stackoverflow.com/a/37980813/5634636确实有效。唯一的一点是你必须使用cluster模式提交你的工作，即，使用参数--deploy-mode cluster。
如果要远程提交 Spark 作业，请使用 Spark 提交 API。这将有很大帮助。详情请见https://www.nitendragautam.com/spark/submit-apache-spark-job-with-rest-api/。

详细说明

注意：我只在 Apache Spark 2.3.1 上测试我的方法。我不能保证它也适用于其他版本。

让我们先明确我的要求。我想要 3 个功能：

远程提交 Spark 作业
随时检查作业状态（RUNNING、ERROR、FINISHED...）
出现错误时获取错误消息

本地提交

注意：此答案仅适用于集群模式

Spark 工具 spark-submit 会有所帮助。

要提交作业，请参阅 https://spark.apache.org/docs/2.4.0/submitting-applications.html#launching-applications-with-spark-submit
要检查状态，请参阅https://stackoverflow.com/a/37420931/5634636。这样，您需要一个SubmissionID。这个答案https://stackoverflow.com/a/37980813/5634636告诉你如何在集群模式下获取提交ID。提交 ID 类似于 driver-20190315142356-0004。
错误消息包含在作业状态消息中。

远程提交

推荐使用 Spark 提交 API。 Apache Spark 官网上好像没有任何文档，所以有人称之为hidden API。详情见：https://www.nitendragautam.com/spark/submit-apache-spark-job-with-rest-api/

要提交 Spark 作业，请使用提交 API
要获取作业的状态，请使用状态 API：http://<master-ip>:6066/v1/submissions/status/<submission-id>。提交作业时，submission-id 将以 json 格式返回。
错误消息包含在状态消息中。
有关错误消息的更多信息：注意状态 ERROR 和 FAILED 之间的区别。简而言之，FAILED 表示在执行 Spark 作业 期间出现问题（例如未捕获的异常），而 ERROR 表示在提交期间出现错误（例如无效的 jar 路径） .错误消息包含在状态 json 中。如果要查看 FAILED 原因，可以通过http://<driver-ip>:<ui-port>/log/<submission-id> 访问。

这是一个错误状态示例（**** 是一个不正确的 jar 路径，是故意写错的）：

{
  "action" : "SubmissionStatusResponse",
  "driverState" : "ERROR",
  "message" : "Exception from the cluster:\njava.io.FileNotFoundException: File hdfs:**** does not exist.\n\torg.apache.hadoop.hdfs.DistributedFileSystem.listStatusInternal(DistributedFileSystem.java:795)\n\torg.apache.hadoop.hdfs.DistributedFileSystem.access$700(DistributedFileSystem.java:106)\n\torg.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:853)\n\torg.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:849)\n\torg.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)\n\torg.apache.hadoop.hdfs.DistributedFileSystem.listStatus(DistributedFileSystem.java:860)\n\torg.apache.spark.util.Utils$.fetchHcfsFile(Utils.scala:727)\n\torg.apache.spark.util.Utils$.doFetchFile(Utils.scala:695)\n\torg.apache.spark.util.Utils$.fetchFile(Utils.scala:488)\n\torg.apache.spark.deploy.worker.DriverRunner.downloadUserJar(DriverRunner.scala:155)\n\torg.apache.spark.deploy.worker.DriverRunner.prepareAndRunDriver(DriverRunner.scala:173)\n\torg.apache.spark.deploy.worker.DriverRunner$$anon$1.run(DriverRunner.scala:92)",
  "serverSparkVersion" : "2.3.1",
  "submissionId" : "driver-20190315160943-0005",
  "success" : true,
  "workerHostPort" : "172.18.0.4:36962",
  "workerId" : "worker-20190306214522-172.18.0.4-36962"
}

【讨论】：