【发布时间】:2020-05-29 16:40:03
【问题描述】:
在 PBS 中,可以使用 qstat -f 查询特定作业并获取(全部?)信息和详细信息以重现该作业:
# qstat -f 1234
Job Id: 1234.login
Job_Name = job_name_here
Job_Owner = user@pbsmaster
...
Resource_List.select = 1:ncpus=24:mpiprocs=24
Resource_List.walltime = 23:59:59
...
Variable_List = PBS_O_HOME=/home/user,PBS_O_LANG=en_US.UTF-8,
PBS_O_LOGNAME=user,...
etime = Mon Apr 20 16:38:27 2020
Submit_arguments = run_script_here --with-these flags
我如何从 SLURM 中提取相同的信息?scontrol show job %j 仅适用于当前正在运行的作业或在 5 分钟前终止的作业。
编辑:我目前正在使用以下内容来获取一些信息,但它不如qstat -f 完整:
sacct -u $USER \
-S 2020-05-13 \
-E 2020-05-15 \
--format "Account,JobID%15,JobName%20,State,ExitCode,Submit,CPUTime,MaxRSS,ReqMem,MaxVMSize,AllocCPUs,ReqTres%25"
.. 通常通过管道传输到 |(head -n 2; grep -v COMPLETED) |sort -k12 以仅检查失败的运行。
【问题讨论】: