【问题标题】:Where will the driver program execute when the spark job is executed in cluster mode集群模式下执行spark job时驱动程序会在哪里执行
【发布时间】:2020-08-01 05:26:41
【问题描述】:

假设我们有一个包含 300 个数据节点 + 1 个名称节点的 Yarn 集群。如果我们以集群模式执行 Spark 作业,那么驱动程序将从哪里开始呢?我已经读到驱动程序将以集群模式驻留在 Application Master 中。这是否意味着驱动程序将驻留在该特定作业的 300 个数据节点中的任何一个上?

例如,对于每个 spark 作业,都会创建一个驱动程序。所以让我们假设第一个作业在集群模式下执行并拾取第 54 个数据节点以在那里启动驱动程序。如果下一个作业在集群模式下执行,它会在集群中选择一些随机数据节点并在那里启动驱动程序吗?谁能解释一下?

【问题讨论】:

    标签: apache-spark pyspark


    【解决方案1】:

    是的,正确,驱动程序将在您的任何一个数据节点上运行。

    "在集群模式下,Spark驱动运行在集群上由YARN管理的应用主进程中,客户端启动应用后即可离开。" https://spark.apache.org/docs/2.4.0/running-on-yarn.html

    【讨论】:

      猜你喜欢
      • 2017-11-14
      • 2017-08-29
      • 1970-01-01
      • 1970-01-01
      • 2020-12-06
      • 2017-02-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多