【问题标题】:Slurm split single node in multipleSlurm将单个节点拆分为多个
【发布时间】:2018-12-19 13:43:18
【问题描述】:

我正在设置一个具有两个“物理”节点的 SLURM 集群。 两个节点中的每一个都有两个 GPU。

我想提供仅使用其中一个 GPU 的选项(并且让另一个 GPU 仍可用于计算)。 我设法用 gres 设置了一些东西,但后来我意识到,即使只使用了 1 个 GPU,节点也会被占用,而另一个 GPU 无法使用。

有没有办法将 GPU 设置为消耗品并在单个节点中拥有两个“节点”?并为每个分配有限数量的 CPU 和内存?

【问题讨论】:

  • 我不是系统管理员,很遗憾,我无法告诉您如何执行此操作。但我可以告诉你,这是可能的。在我通常工作的集群中,我们有一堆节点,每个节点有 4 个 GPU,您可以询问您需要使用多少个(而不是阻塞整个节点)。它是通过 gres 完成的。

标签: slurm


【解决方案1】:

我遇到了同样的问题,但我设法通过允许超额订阅使其工作。

以下是有关它的文档: https://slurm.schedmd.com/cons_res_share.html

不确定我所做的是否完全正确,但我已经提出 SelectType=select/cons_tres, SelectTypeParameters=CR_Core 并为我的分区设置 OverSubscribe=FORCE。现在我可以在同一个节点上启动多个 GPU 作业。

【讨论】:

    猜你喜欢
    • 2019-07-13
    • 1970-01-01
    • 2012-06-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-05
    • 1970-01-01
    相关资源
    最近更新 更多