【发布时间】:2017-04-06 12:30:35
【问题描述】:
我没有太多信息,所以请告诉我我可以做些什么来诊断这个问题。
我的 HPC 有几个计算节点,我昨晚提交的一项作业在运行几个小时后暂停。我今天早上检查了qstat,发现自从我昨天上次检查以来,它没有任何进展。其他节点似乎可以正常处理作业。
我删除了作业并重新提交,但它看起来好像在队列中,即使它前面没有安排其他作业。
gstat 显示它没有排队的进程,但节点处于活动状态。
qstat -s 说“未运行:排空系统以允许饥饿作业运行”
如果有帮助,这是在 CentOS 6.5 环境中设置的。
我还能做些什么来诊断这个问题?
【问题讨论】:
标签: centos cluster-computing hpc