【发布时间】:2019-01-22 21:08:23
【问题描述】:
我正在尝试提交这份工作:
sbatch --gres=gpu:v100:1 -p defq -J convolutional-mnist /cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm
sbatch:错误:批处理作业提交失败:请求的节点配置不可用
但配置似乎是正确的。这是 sinfo 输出:
$ sinfo -o "%.10P %.5a %.10l %.6D %.6t %.20N %.10G"
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST GRES
defq* up infinite 1 idle cnode001 gpu:v100:1
defq* up infinite 2 idle cnode[002-003] (null)
idle up infinite 1 idle cnode001 gpu:v100:1
idle up infinite 2 idle cnode[002-003] (null)
long up infinite 1 idle cnode001 gpu:v100:1
long up infinite 2 idle cnode[002-003] (null)
请注意节点 cnode001 属于 defq 并且具有 gres 字符串 gpu:v100:1。
我不明白为什么 Slurm 说请求的节点配置不可用。
您能提供的任何帮助将不胜感激。
【问题讨论】:
-
可能是由于默认的 CPU 数量、内存或时间限制... :-?
标签: slurm