【发布时间】:2021-06-08 22:39:41
【问题描述】:
我正在使用一个有 20 个节点的计算机集群,每个节点有 16 个 CPU。我尝试使用命令“sbatch XX.sbatch”向所有节点提交 1000 个作业。我想要的是同时运行 320 个作业,即每个节点 16 个作业,或每个 CPU 1 个作业。
当我使用 . sbatch 文件中的参数是 XX sbatch 文件是
#!/bin/bash
# Interpreter declaration
#SBATCH -N 1
#SBATCH -n 1
#SBATCH -c 1
#SBATCH -J job_XX
./example.sh
我注意到每个节点上只运行 1 个作业。
然后我尝试了
#!/bin/bash
# Interpreter declaration
#SBATCH -N 20
#SBATCH -n 1
#SBATCH -c 1
#SBATCH -J job_XX
./example.sh
我注意到只有 1 个作业在 20 个节点中运行,即每 20 个节点有 1 个作业。
然后我尝试了
#!/bin/bash
# Interpreter declaration
#SBATCH -N 20
#SBATCH -n 320
#SBATCH -c 1
#SBATCH --ntasks-per-node=16
#SBATCH -J job_XX
./example.sh
仍然有 1 个作业正在使用所有 20 个节点。
有人知道怎么解决吗?谢谢。
【问题讨论】: