【发布时间】:2017-10-04 02:05:47
【问题描述】:
我正在运行一个测试作业,它需要压缩 5gb 的数据并转储到 mongoDB 中。 我有 1 个主机和 3 个从机,每个 16 CPU,30gb RAM。提交作业后,spark 似乎只使用 2 个从节点来完成作业并为作业分配 32 个核心,尽管我正在为我的作业使用动态分配。这个作业是这个集群上唯一正在运行的作业,因此我预计在 47 左右在 3 个节点上使用核心(剩下 1 个用于应用程序主纱线)。我在集群中使用 AWS EMR 和纱线。
为什么只有 2 个节点参与作业,并且使用动态分配为作业分配了 32 个核心,是否有特殊原因。
【问题讨论】:
标签: apache-spark