【发布时间】:2011-11-17 14:09:52
【问题描述】:
我正在我的大学集群上提交 MPI 作业。对于较大的程序,我注意到在我的最后一个通信例程中,我的程序崩溃了,几乎没有任何有用的错误消息。
mpirun noticed that process rank 0 with PID 5466 on node red0005 exited on signal 9 (Killed).
唯一有帮助的是排名 0 导致了问题。由于此最终通信例程的工作方式如下(其中<--> 表示MPI_Send/Recv)
rank 0 rank 1 rank 2 rank 3 ... rank n
| <--> <--> <--> <-->
|
|
|
|
|
|
|
V
----------------------MPI_Barrier()------------------
我的猜测是 0 级命中 MPI_Barrier() 等待很长时间(570-1200 秒)然后导致异常。或者,计算机可能内存不足。当我的本地机器内存不足时,我会收到非常详细的内存不足警告,但我不知道远程机器上发生了什么。任何想法这可能意味着什么?
【问题讨论】: