【问题标题】:Slurm: Is it possible to give or change pid of the submitted job via sbatchSlurm:是否可以通过 sbatch 提供或更改已提交作业的 pid
【发布时间】:2017-04-10 09:39:51
【问题描述】:

当我们通过sbatch 提交作业时,作业的pid 以增量顺序给出。根据我的观察,这个顺序又从 1 开始。

sbatch  -N1 run.sh
Submitted batch job 20

//如果可能的话,目标是更改提交的批处理作业的id。

[Q1] 例如在 slurm 下有一个正在运行的作业。当我们重新启动节点时,作业是否继续运行?它的 pid 是更新还是保持原来的样子?

[Q2] 是否可以使用集群所有者想要提供的唯一 id 提供或更改已提交作业的 pid?

感谢您宝贵的时间和帮助。

【问题讨论】:

    标签: slurm sbatch


    【解决方案1】:

    如果节点失败,作业将重新排队 - 如果 slurm.conf 中的 JobRequeue 参数允许这样做。它将获得与先前开始运行相同的作业 ID,因为这是数据库中用于管理作业的唯一标识符。 (用户可以使用--no-requeue sbatch 参数覆盖重新排队。)

    不能更改作业 ID,不。

    【讨论】:

    • JobRequeue=1 在我的 slurm.conf 文件中被评论。如果我使它可用,据我所知 requeued 将完成,但是该作业将从头开始运行,并且不会从关闭前离开的位置继续。如果重启节点后会有--no-requeue,作业不会再次运行对吗? @ciaron
    • 使用JobRequeue=0--no-requeue,作业不会自动重新启动 - 否则将从头重新启动。如果您希望作业从中断的地方重新开始,您可能需要查看检查点/重新启动 BLCR
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-06-01
    • 2016-02-08
    • 1970-01-01
    • 2020-01-18
    • 1970-01-01
    相关资源
    最近更新 更多