【问题标题】:Slurm: How to restart failed worker jobSlurm:如何重新启动失败的工作人员
【发布时间】:2023-07-26 09:53:01
【问题描述】:

如果在 slurm 集群上运行阵列作业,如何重新启动失败的工作作业?

在 Sun Grid Engine 队列中,可以将 #$ -r y 添加到作业文件中,以指示作业在失败时应重新启动 - 该标志的 Slurm 等效项是什么?

【问题讨论】:

    标签: hpc slurm sungridengine


    【解决方案1】:

    你可以使用--requeue

    #SBATCH --requeue                   ### On failure, requeue for another try
    

    --重新排队

    指定批处理作业应该有资格重新排队。该作业可以由系统管理员显式地重新排队,在节点发生故障之后,或者在被更高优先级的作业抢占时。当作业重新排队时,批处理脚本会从头开始启动。另请参阅 --no-requeue 选项。 JobRequeue 配置参数控制集群上的默认行为。

    在此处查看更多信息:https://slurm.schedmd.com/sbatch.html#lbAE

    【讨论】:

      最近更新 更多