【问题标题】:Spark 2 on YARN is utilizing more cluster resource automaticallyYARN 上的 Spark 2 正在自动利用更多集群资源
【发布时间】:2017-08-15 03:47:44
【问题描述】:

我在 CDH 5.7.0 上,我发现 spark 2 在 YARN 集群上运行时出现了一个奇怪的问题。下面是我的作业提交命令

spark2-submit --master yarn --deploy-mode cluster --conf "spark.executor.instances=8" --conf "spark.executor.cores=4" --conf "spark.executor.memory= 8g" --conf "spark.driver.cores=4" --conf "spark.driver.memory=8g" --class com.learning.Trigger learning-1.0.jar

尽管我限制了我的作业可以使用的集群资源的数量,但我可以看到资源利用率超过了分配的数量。

这项工作从基本的内存消耗开始,例如 8G 内存,并且会吃掉我们整个集群。

没有将动态分配设置为 true。 我只是在SparkSession 之上触发了一个 INSERT OVERWRITE 查询。

任何指针都会很有帮助。

【问题讨论】:

    标签: apache-spark hadoop-yarn cloudera-cdh


    【解决方案1】:

    我在集群中创建了资源池并将一些资源分配为

    最少资源:4 个虚拟内核和 8 GB 内存

    使用这些池分配 Spark 作业以限制资源(VCore 和内存)的使用。

    例如spark2-submit --class org.apache.spark.SparkProgram.rt_app --master yarn --deploy-mode cluster --queue rt_pool_r1 /usr/local/abc/rt_app_2.11-1.0.jar

    如果有人有更好的存档选项,请告诉我们。

    【讨论】:

      猜你喜欢
      • 2016-09-06
      • 1970-01-01
      • 2018-06-17
      • 1970-01-01
      • 1970-01-01
      • 2015-11-06
      • 2015-08-20
      • 2019-01-27
      • 2016-02-09
      相关资源
      最近更新 更多