【发布时间】:2020-09-09 09:07:36
【问题描述】:
我在 YARN 集群上并行运行多个 Spark 作业。我发现 YARN 正在并行启动许多这样的作业,但只为驱动程序分配一个容器而没有执行程序。这意味着这些 Spark 作业实际上处于空闲状态,等待执行器加入,而通过将执行器分配给其他作业可以更好地利用这种处理能力。
我想配置 YARN 以将至少两个容器(一个驱动程序 + 一个执行程序)分配给一个作业,如果这不可用,则将其保留在队列中。这种方式如何配置YARN?
(我在几乎所有默认设置的 AWS EMR 集群上运行。)
【问题讨论】: