【发布时间】:2017-10-09 14:00:16
【问题描述】:
我有以下问题。
为什么在标准节点(最大内核数 56)上提交作业时一切正常,但是当我向 large_memory 节点(最大内核数 128)提交相同的作业/代码时出现错误?
R 中的并行化代码:
> no_cores <- detectCores() - 1
> cl <- makeCluster(no_cores, outfile=paste0('./info_parallel.log'))
错误
Error in socketConnection(master, port = port, blocking = TRUE, open = "a+b", : cannot open the connection Calls: <Anonymous> ... doTryCatch -> recvData -> makeSOCKmaster -> socketConnection In addition: Warning message: In socketConnection(master, port = port, blocking = TRUE, open = "a+b", : localhost:11232 cannot be opened Execution halted Error in unserialize(node$con) : error reading from connection Calls: <Anonymous> ... doTryCatch -> recvData -> recvData.SOCKnode -> unserialize Execution halted Error in unserialize(node$con) : error reading from connection Calls: <Anonymous> ... doTryCatch -> recvData -> recvData.SOCKnode -> unserialize Execution halted
正如我所说,R 代码在标准节点上运行良好,所以我认为这是 large_memory 节点的问题。那会是什么?
【问题讨论】:
-
google搜索的很多答案都是以下答案:可能是计算节点和登录节点之间有防火墙,或者登录节点不允许连接到计算节点的11232端口. -- 我尝试从登录节点 ssh 到计算节点;然后直接在计算节点上运行 R 代码。或者设置连接到 11232 端口。但是还是报同样的错误。
标签: r parallel-processing cluster-computing