【问题标题】:HPC compute node not running jobsHPC 计算节点未运行作业
【发布时间】:2017-04-06 12:30:35
【问题描述】:

我没有太多信息,所以请告诉我我可以做些什么来诊断这个问题。

我的 HPC 有几个计算节点,我昨晚提交的一项作业在运行几个小时后暂停。我今天早上检查了qstat,发现自从我昨天上次检查以来,它没有任何进展。其他节点似乎可以正常处理作业。

我删除了作业并重新提交,但它看起来好像在队列中,即使它前面没有安排其他作业。

gstat 显示它没有排队的进程,但节点处于活动状态。

qstat -s 说“未运行:排空系统以允许饥饿作业运行”

如果有帮助,这是在 CentOS 6.5 环境中设置的。

我还能做些什么来诊断这个问题?

【问题讨论】:

    标签: centos cluster-computing hpc


    【解决方案1】:

    事实证明,运行超过 24 小时的扭矩脚本会导致调度程序也提交的所有其他作业暂停。我们需要终止负责的工作,然后一切都恢复原状。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-03-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多