【发布时间】:2020-08-01 05:26:41
【问题描述】:
假设我们有一个包含 300 个数据节点 + 1 个名称节点的 Yarn 集群。如果我们以集群模式执行 Spark 作业,那么驱动程序将从哪里开始呢?我已经读到驱动程序将以集群模式驻留在 Application Master 中。这是否意味着驱动程序将驻留在该特定作业的 300 个数据节点中的任何一个上?
例如,对于每个 spark 作业,都会创建一个驱动程序。所以让我们假设第一个作业在集群模式下执行并拾取第 54 个数据节点以在那里启动驱动程序。如果下一个作业在集群模式下执行,它会在集群中选择一些随机数据节点并在那里启动驱动程序吗?谁能解释一下?
【问题讨论】:
标签: apache-spark pyspark