【发布时间】:2020-09-17 14:27:51
【问题描述】:
我正在尝试运行 100 个节点的 AWS Batch 作业,当我将计算环境设置为仅使用 m4.xlarge 和 m5.xlarge 实例时,一切正常,并且我的作业已启动并运行。
但是,当我开始在我的计算环境中包含其他实例类型(例如 m5.2xlarge)时,作业会无限期地停留在 runnable 状态。我在这些更新中更改的唯一变量是计算环境中的实例类型。
当我在计算环境中包含其他实例类型时,我不确定是什么原因导致该作业无法执行。在Compute Environment Parameters 的文档中,唯一的注释是:
创建计算环境时,您为计算环境选择的实例类型必须共享相同的架构。例如,您不能在同一个计算环境中混合使用 x86 和 ARM 实例。
JobDefinition 是多节点:
- 节点 0
- vCPU:1
- 内存:15360 MiB
- 节点 1:
- vCPU:2 个
- 内存:15360 MiB
我的计算环境最大 vCPUs 设置为10,000,始终处于VALID 状态并且始终处于ENABLED。我的 EC2 vCPU 限制也是6,000。 CloudWatch 不提供日志,因为作业尚未开始,我不确定这里还有什么可以尝试的。我也没有使用 optimal 设置实例类型,因为我遇到了没有获得足够实例的问题。
【问题讨论】:
-
另外,计算环境由AWS管理,用于扩展实例。
标签: amazon-web-services aws-batch