YARN 上的 Spark 2 正在自动利用更多集群资源答案

【问题标题】：Spark 2 on YARN is utilizing more cluster resource automaticallyYARN 上的 Spark 2 正在自动利用更多集群资源
【发布时间】：2017-08-15 03:47:44
【问题描述】：

我在 CDH 5.7.0 上，我发现 spark 2 在 YARN 集群上运行时出现了一个奇怪的问题。下面是我的作业提交命令

spark2-submit --master yarn --deploy-mode cluster --conf "spark.executor.instances=8" --conf "spark.executor.cores=4" --conf "spark.executor.memory= 8g" --conf "spark.driver.cores=4" --conf "spark.driver.memory=8g" --class com.learning.Trigger learning-1.0.jar

尽管我限制了我的作业可以使用的集群资源的数量，但我可以看到资源利用率超过了分配的数量。

这项工作从基本的内存消耗开始，例如 8G 内存，并且会吃掉我们整个集群。

我没有将动态分配设置为 true。我只是在SparkSession 之上触发了一个 INSERT OVERWRITE 查询。

任何指针都会很有帮助。

【问题讨论】：

标签： apache-spark hadoop-yarn cloudera-cdh

【解决方案1】：

我在集群中创建了资源池并将一些资源分配为

最少资源：4 个虚拟内核和 8 GB 内存

使用这些池分配 Spark 作业以限制资源（VCore 和内存）的使用。

例如spark2-submit --class org.apache.spark.SparkProgram.rt_app --master yarn --deploy-mode cluster --queue rt_pool_r1 /usr/local/abc/rt_app_2.11-1.0.jar

如果有人有更好的存档选项，请告诉我们。

【讨论】：