【发布时间】:2020-06-09 15:56:13
【问题描述】:
我正在使用 1 个主节点和 11 个 m5.2xlarge 核心节点的 EMR 集群。对这种类型的节点做了一些相关的计算之后,下面的json来设置我在EMR上的spark应用配置:
[
{
"Classification": "capacity-scheduler",
"Properties": {
"yarn.scheduler.capacity.resource-calculator":"org.apache.hadoop.yarn.util.resource.DominantResourceCalculator"
}
},
{
"Classification": "yarn-site",
"Properties": {
"yarn.nodemanager.vmem-check-enabled":"false",
"yarn.nodemanager.pmem-check-enabled":"false"
}
},
{
"Classification": "spark-defaults",
"Properties": {
"spark.dynamicAllocation.enabled":"false",
"spark.worker.instances":"5",
"spark.driver.memory":"20g",
"spark.executor.memory":"20g",
"spark.executor.cores":"5",
"spark.driver.cores":"5",
"spark.executor.instances":"14",
"spark.yarn.executor.memoryOverhead":"4g",
"spark.default.parallelism":"140"
}
},
{
"classification": "spark",
"properties": {
"maximizeResourceAllocation":"false"
}
}
]
但是,这个集群的运行容器并不像我预期的那样(通常是相同数量的运行核心)。只有 11 个正在运行的容器,我怎样才能将这个数字增加到 51 作为已用 Vcore 的数量?
【问题讨论】:
-
您能否阐明所需的集群配置是什么?了解您为什么需要特定配置而不是动态分配或 EMR 最佳配置也会很有帮助。
-
我想将emr集群的运行容器从1个容器增加到每个节点5个容器。我想使用更多的 vcore,因为动态分配只分配 2 个 vcore。任何想法? @戴夫
-
服务器故障可能是这个问题的更好的地方。
标签: python apache-spark pyspark amazon-emr