【发布时间】:2015-11-09 06:24:30
【问题描述】:
我想知道一些参数来加速我的 YARN 集群上的 Spark 作业。
我有以下 Spark/YARN 配置,但我对执行速度不满意。我有很多未使用的 vcore 和内存。
Spark 配置:
- spark.yarn.am.cores = 2
- spark.executor.memory = 5g
- spark.executor.cores = 8
纱线配置:
- yarn.nodemanager.resource.memory-mb = 31744
- yarn.nodemanager.resource.cpu-vcores = 15
- yarn.scheduler.maximum-allocation-mb = 31744
从图片来看,
- 在节点 3 和 5 上,为什么要使用 2gb 中的 6gb。
- 节点 1、2、4、5、6 上的内存根本没有使用
此外,我希望能够为集群中的每个节点启动更多容器。
非常感谢您的帮助。
【问题讨论】:
-
您当前的应用程序只需要 3 个来自 YARN 的容器。尝试使用 --num-executors 3 增加 spark executor 的数量,调整 executor 内存和内核可能也有用。请注意,以下步骤应该会增加资源利用率,但您需要了解 Spark 如何调整应用程序的性能。
标签: hadoop apache-spark hadoop-yarn