【发布时间】:2018-01-19 12:30:48
【问题描述】:
我有一个由许多节点组成的集群,其中包含许多内核,我只想运行数千个作业,每个作业只需要一个 CPU。最好使用sbatch。在阅读了几个小时的文档后,我仍然遇到了问题。我目前的设置是:
#SBATCH --nodes=4
#SBATCH --tasks-per-node=25
#SBATCH --distribution=block
srun ./my_experiment
我用sbatch开始了其中的几个,他们似乎很好地排队。
此脚本启动 100 个 my_experiment 实例,这是预期的。不幸的是,即使 99 个实验已经结束,它们似乎也占用了所有 100 个 CPU 的资源。我该如何缓解?
其次,它们似乎并不彼此共享节点。即使节点有 +40 个核心。
甚至可以sbatch一堆任务并让它们单独释放资源吗?
【问题讨论】:
-
Slurm 如何配置 w.r.t 节点共享? (
scontrol show config | grep select的输出是什么?) -
编辑错误,我修复了。输出为
SelectType = select/cons_res。这是一个大型研究集群,我没有管理员权限