【发布时间】:2023-07-26 09:53:01
【问题描述】:
如果在 slurm 集群上运行阵列作业,如何重新启动失败的工作作业?
在 Sun Grid Engine 队列中,可以将 #$ -r y 添加到作业文件中,以指示作业在失败时应重新启动 - 该标志的 Slurm 等效项是什么?
【问题讨论】:
标签: hpc slurm sungridengine
如果在 slurm 集群上运行阵列作业,如何重新启动失败的工作作业?
在 Sun Grid Engine 队列中,可以将 #$ -r y 添加到作业文件中,以指示作业在失败时应重新启动 - 该标志的 Slurm 等效项是什么?
【问题讨论】:
标签: hpc slurm sungridengine
你可以使用--requeue
#SBATCH --requeue ### On failure, requeue for another try
--重新排队
指定批处理作业应该有资格重新排队。该作业可以由系统管理员显式地重新排队,在节点发生故障之后,或者在被更高优先级的作业抢占时。当作业重新排队时,批处理脚本会从头开始启动。另请参阅 --no-requeue 选项。 JobRequeue 配置参数控制集群上的默认行为。
【讨论】: