【发布时间】:2021-04-07 19:50:53
【问题描述】:
我正在尝试在我们的 HPC 系统上使用 Dask 作业队列。这是我正在使用的代码:
from dask_jobqueue import SLURMCluster
cluster = SLURMCluster(cores=2, memory='20GB', processes=1,
log_directory='logs',
death_timeout=6000, walltime='8:00:00',
shebang='#!/usr/bin/ bash')
cluster.scale(5)
from dask.distributed import Client
client = Client(cluster)
执行代码后,我可以使用squeue检查提交的作业,我可以看到其中有5个处于运行R状态。但是工作在几秒钟后就被杀死了。在.err 文件中,我发现了这条消息:
slurmstepd-midway2-0354: error: execve(): /tmp/slurmd/job10469239/slurm_script: Permission denied
我对 Dask 很陌生,不知道出了什么问题。任何想法将不胜感激!谢谢!
【问题讨论】:
标签: python dask dask-distributed dask-jobqueue