【发布时间】:2019-03-29 16:26:25
【问题描述】:
我有一个 GCP Dataproc 集群,有 50 个工作人员(n1-standard-16 16 VCores 64 GB RAM)。
集群具有带默认资源计算器的容量调度程序。
我的 Spark 作业具有以下配置
- spark.executor.cores=5
- spark.executor.memory=18G
- spark.yarn.executor.memoryOverhead=2G
现在,当我看到 YARN UI 时,它显示每个节点都有 2 个容器运行 1-Vcore 和 20GB RAM,这几乎使它看起来像 spark.executor.cores 不适用。为了交叉检查,我查看了 Spark UI,令我惊讶的是,每个执行程序都显示了 5 个内核。这让我有点困惑。
此外,作业完成时间(26 分钟)也表明这 5 个核心确实是 vcore,而不仅仅是 1 个核心中的 5 个线程(这只是我的理解,我在这里可能完全错了)。
谁能帮我理解这个?
【问题讨论】:
标签: google-cloud-platform hadoop-yarn google-cloud-dataproc