【发布时间】:2015-02-23 13:33:37
【问题描述】:
我正在尝试使用 MPI 在集群上运行作业(python 代码)。每个节点上有 63GB 的可用内存。 当我在一个节点上运行它时,我指定 PBS 参数(此处仅列出相关参数):
#PBS -l mem=60GB
#PBS -l nodes=node01.cluster:ppn=32
time mpiexec -n 32 python code.py
比工作正常。
由于 PBS 手册页说 mem 是整个作业的内存,我尝试在两个节点上运行它时的参数是
#PBS -l mem=120GB
#PBS -l nodes=node01.cluster:ppn=32+node02.cluster:ppn=32
time mpiexec -n 64 python code.py
这不起作用 (qsub: Job exceeds queue resource limits MSG=cannot satisfy queue max mem requirement)。即使我设置了mem=70GB,它也会失败(以防系统需要更多内存)。
如果我在尝试使用两个节点时设置mem=60GB,我会得到
=>> PBS: job killed: mem job total xx kb exceeded limit yy kb.
我也尝试了pmem(即pmem=1875MB),但没有成功。
我的问题是:如何使用整个 120GB 内存?
【问题讨论】:
标签: cluster-computing pbs