Spark Standalone --total-executor-cores答案

【问题标题】：Spark Standalone --total-executor-coresSpark Standalone --total-executor-cores
【发布时间】：2018-01-10 20:49:55
【问题描述】：

我使用的是 Spark 2.1.1 独立集群，

虽然我的集群 (Cores in use: 80 Total, 51 Used) 中有 29 个空闲核心，但在使用 --total-executor-cores 16 提交新的 spark 作业时，此配置不会生效，并且仅使用 6 个核心提交的作业..

我错过了什么？（删除检查点没有帮助）

这是我的 spark-submit 命令：

PYSPARK_PYTHON="/usr/bin/python3.4" 
PYSPARK_DRIVER_PYTHON="/usr/bin/python3.4" \
/opt/spark/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--master spark://XXXX.XXXX:7077  \
--conf "spark.sql.shuffle.partitions=2001" \
--conf "spark.port.maxRetries=200" \
--conf "spark.executorEnv.PYTHONHASHSEED=0" \
--executor-memory 24G \
--total-executor-cores 16 \
--driver-memory 8G \
/home/XXXX/XXXX.py \
--spark_master "spark://XXXX.XXXX:7077" \
--topic "XXXX" \
--broker_list "XXXX" \
--hdfs_prefix "hdfs://XXXX"

【问题讨论】：

标签： apache-spark pyspark spark-submit apache-spark-standalone

【解决方案1】：

我的问题是我从 spark (--executor-memory 24G) 请求的大量内存 - spark 试图找到具有 24G 空闲内存的工作节点，但发现只有 2 个节点，每个节点有 3 个空闲内核（这就是为什么我只看到 6 个核心）。

当内存减少到 8G 时，spark 找到了指定的核心数。

【讨论】：