【问题标题】:Dask jobqueue job killed due to permissionDask jobqueue 作业因许可而被杀死
【发布时间】:2021-04-07 19:50:53
【问题描述】:

我正在尝试在我们的 HPC 系统上使用 Dask 作业队列。这是我正在使用的代码:

from dask_jobqueue import SLURMCluster
cluster = SLURMCluster(cores=2, memory='20GB', processes=1,
                       log_directory='logs',
                       death_timeout=6000, walltime='8:00:00',
                       shebang='#!/usr/bin/ bash')

cluster.scale(5)

from dask.distributed import Client
client = Client(cluster)

执行代码后,我可以使用squeue检查提交的作业,我可以看到其中有5个处于运行R状态。但是工作在几秒钟后就被杀死了。在.err 文件中,我发现了这条消息:

slurmstepd-midway2-0354: error: execve(): /tmp/slurmd/job10469239/slurm_script: Permission denied

我对 Dask 很陌生,不知道出了什么问题。任何想法将不胜感激!谢谢!

【问题讨论】:

    标签: python dask dask-distributed dask-jobqueue


    【解决方案1】:

    主要问题是shebang的规格不正确:

    # ...
                           shebang='#!/usr/bin/env bash')
    # ...
    

    根据您的 SLURM 设置,您可能还需要指定 queue(适当的 SLURM 集群分区)。

    如果以后有问题,你可以检查dask_jobqueue提交的脚本使用:

    print(cluster.job_script())
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-09-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多