【发布时间】:2018-02-05 15:17:01
【问题描述】:
我已经在 Ubuntu 机器上安装了 Torque(它是服务器和唯一的节点)。除了最终确定部分之外,其他工作似乎都运行良好。
当工作结束时,我会得到类似的东西
PBS Job Id: 17.ubuntu-server
Job Name: dm.job
Exec host: ubuntu-server/0
An error has occurred processing your job, see below.
Post job file processing error; job 17.ubuntu-server on host ubuntu-server/0
Unable to copy file /var/spool/torque/spool/17.ubuntu-server.OU to user@ubuntu-server:/home/user/test/dm.job.o17
*** error from copy
Permission denied (publickey,password).
lost connection
*** end error output
Output retained on that host in: /var/spool/torque/undelivered/17.ubuntu-server.OU
Unable to copy file /var/spool/torque/spool/17.ubuntu-server.ER to user@ubuntu-server:/home/user/test/dm.job.e17
*** error from copy
Permission denied (publickey,password).
lost connection
*** end error output
Output retained on that host in: /var/spool/torque/undelivered/17.ubuntu-server.ER
据我了解,问题在于使用 ssh 密钥进行身份验证。它尝试将一些文件 scp 到作业文件夹,但 ssh 权限是错误的。我将自己的 id_rsa.pub 放入 authorized_keys (以及 root 也是),但仍然没有运气。
所以有几个问题相关:
在哪些用户作业下运行?我想,如果我写
qsub dm.job,它会在我的用户下运行。因此,如果我能够从user@ubuntu-serverssh 到user@ubuntu-server(我就是),那么作业输出 scp'ing(仍然是)应该没有问题。如果是 root 用户执行作业,如何正确设置 ssh 凭据和密钥?如何修复此权限错误?
有点离题,但相关。为什么有几个脚本名称无法识别?例如,我可以写
> julia -v
julia version 0.6.0
在根目录下和我自己下。但是当我在工作中运行时,它会记录
/var/spool/torque/mom_priv/jobs/18.ubuntu-server.SC: line 5: julia: command not found
【问题讨论】: