【问题标题】:Torque+MAUI PBS submitted job strange startupTorque+MAUI PBS 提交作业奇怪的启动
【发布时间】:2014-07-10 15:53:46
【问题描述】:

我正在使用 Torque+MAUI 集群。

集群的利用率现在约为 10 个节点/40 个节点可用,很多作业正在排队但无法启动。

我使用qsub提交了以下 PBS 脚本:

#!/bin/bash
#
#PBS -S /bin/bash
#PBS -o STDOUT
#PBS -e STDERR
#PBS -l walltime=500:00:00
#PBS -l nodes=1:ppn=32
#PBS -q zone0

cd /somedir/workdir/
java -Xmx1024m -Xms256m -jar client_1_05.jar

作业立即获得 R(un) 状态,但我从 qstat -n 得到了这个异常信息

8655.cluster.local      user       zone0    run.sh         --      1     32    --  500:00:00 R  00:00:31
z0-1/0+z0-1/1+z0-1/2+z0-1/3+z0-1/4+z0-1/5+z0-1/6+z0-1/7+z0-1/8+z0-1/9
+z0-1/10+z0-1/11+z0-1/12+z0-1/13+z0-1/14+z0-1/15+z0-1/16+z0-1/17+z0-1/18
+z0-1/19+z0-1/20+z0-1/21+z0-1/22+z0-1/23+z0-1/24+z0-1/25+z0-1/26+z0-1/27
+z0-1/28+z0-1/29+z0-1/30+z0-1/31

异常部分是run.sh -- 1 32中的--,因为缺少sessionId,显然脚本根本没有运行,即java程序从来没有被启动过的痕迹。

在这种奇怪的运行约 5 分钟后,作业将被设置回 Q(ueue) 状态并且似乎不会再次运行(我已经监视了约 1 周,即使排队也不会运行到最高职位)。

我尝试提交同一个作业 14 次,并在 qstat -n 中监视其节点,成功运行了 7 个副本,具有不同的节点号,但是分配给 z0-1/* 的所有作业都被这种奇怪的启动行为卡住了。

  1. 有人知道这个问题的解决方案吗?

  2. 对于临时解决方法,如何指定不在 PBS 脚本中使用那些奇怪的节点?

【问题讨论】:

    标签: pbs torque


    【解决方案1】:

    听起来这些节点有问题。一种解决方案是使不工作的节点脱机:pbsnodes -o <node name> 并允许集群继续工作。您可能需要解除对任何作业的保留。我相信你可以在毛伊岛运行releasehold ALL 来完成这项工作。

    一旦您处理好这些,我会调查这些节点上的日志(从 pbs_mom 日志和 syslogs 开始)并找出它们有什么问题。找出并纠正它们的问题后,您可以将节点重新联机:pbsnodes -c <node_name>。您可能还想考虑设置一些node health scripts 来主动检测和处理这些情况。

    【讨论】:

      【解决方案2】:

      对于用户,请联系您的管理员,同时使用此解决方法运行作业。

      1. 使用pbsnodes检查空闲和健康的节点

      2. 修改 PBS 指令#PBS -l nodes=<freenode1>:ppn=<ppn1>+<freenode2>:ppn=<ppn2>+...

      3. 使用qsub提交作业

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-08-06
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多