Yarn Amazon EMR 中的内存分配答案

【问题标题】：Memory allocation in Yarn Amazon EMRYarn Amazon EMR 中的内存分配
【发布时间】：2019-11-04 11:58:02
【问题描述】：

我在 pyspark (Amazon EMR) 中遇到此错误，我的文件大约 2G。如何更改分配？

谢谢

在尝试增加集群的大小时，在某些阶段我仍然有问题

Py4JJavaError: 调用时出错 None.org.apache.spark.api.java.JavaSparkContext。： java.lang.IllegalArgumentException：所需的执行程序内存（8192），开销 (1536 MB)，并且 PySpark 内存 (0 MB) 高于最大值此集群的阈值（5760 MB）！请检查的值 'yarn.scheduler.maximum-allocation-mb' 和/或 'yarn.nodemanager.resource.memory-mb'。

【问题讨论】：

标签： amazon-web-services pyspark amazon-emr

【解决方案1】：

当您向 Apache Spark 提交作业时，您可以在脚本中添加一些参数来自定义下面的内存示例。这些参数将覆盖默认配置

例子

"--deploy-mode": "cluster",
"--num-executors": 60,
"--executor-memory": "16g",
"--executor-cores": 5,
"--driver-memory": "16g",
"--conf": {"spark.driver.maxResultSize": "2g"}

【讨论】：

谢谢！我会试试的！