【问题标题】:Batch job submission failed: Requested node configuration is not available批处理作业提交失败:请求的节点配置不可用
【发布时间】:2019-01-22 21:08:23
【问题描述】:

我正在尝试提交这份工作:

sbatch --gres=gpu:v100:1 -p defq -J convolutional-mnist /cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm

sbatch:错误:批处理作业提交失败:请求的节点配置不可用

但配置似乎是正确的。这是 sinfo 输出:

$ sinfo -o "%.10P %.5a %.10l %.6D %.6t %.20N %.10G"
PARTITION AVAIL  TIMELIMIT  NODES  STATE             NODELIST       GRES
 defq*    up   infinite      1   idle             cnode001 gpu:v100:1
 defq*    up   infinite      2   idle       cnode[002-003]     (null)
  idle    up   infinite      1   idle             cnode001 gpu:v100:1
  idle    up   infinite      2   idle       cnode[002-003]     (null)
  long    up   infinite      1   idle             cnode001 gpu:v100:1
  long    up   infinite      2   idle       cnode[002-003]     (null)

请注意节点 cnode001 属于 defq 并且具有 gres 字符串 gpu:v100:1。

我不明白为什么 Slurm 说请求的节点配置不可用。

您能提供的任何帮助将不胜感激。

【问题讨论】:

  • 可能是由于默认的 CPU 数量、内存或时间限制... :-?

标签: slurm


【解决方案1】:

提交脚本/cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm 中有什么内容?会不会像 Poshi 建议的那样,该脚本为 defq 分区设置了一组冲突的参数?如果省略-p defq,它是否有效?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-01-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-06
    • 2018-04-30
    • 2021-08-01
    相关资源
    最近更新 更多