【发布时间】:2019-02-06 17:05:18
【问题描述】:
今天我向节点/分区cn430提交作业后,我发现节点一直处于痴迷状态,
上一个作业完成后,由于优先级,我的作业仍然没有运行。然后我注意到所有这些工作都有相同的前缀,即4988443,它在我的工作ID4988560之前。
好像用户已经跨多个分区提交了大约 1000 个相同优先级的作业,
我想知道如何实现它。
【问题讨论】:
标签: slurm
今天我向节点/分区cn430提交作业后,我发现节点一直处于痴迷状态,
上一个作业完成后,由于优先级,我的作业仍然没有运行。然后我注意到所有这些工作都有相同的前缀,即4988443,它在我的工作ID4988560之前。
好像用户已经跨多个分区提交了大约 1000 个相同优先级的作业,
我想知道如何实现它。
【问题讨论】:
标签: slurm
首先,cn430 看起来确实像一个节点而不是一个分区。它所属的分区似乎被命名为shared-gp。
您看到的是job array。这是一种提交大量仅在特定参数上有所不同的作业的方法。数组中的每个作业都是独立调度的,因此如果您不请求特定节点(例如使用-w或--nodelist),Slurm 会将它们广播到可用的节点。
请注意,如果正在实施 faishare,作业优先级将随着时间的推移而衰减,因此当前待处理的作业的优先级将因当前正在运行的作业而降低。
【讨论】: