【问题标题】:mpirun on os Xos X 上的 mpirun
【发布时间】:2010-10-03 08:05:35
【问题描述】:

有没有办法在超过 62 个进程的 os X leopard(10.5.6) 上本地运行本地 mpi 作业。当我使用 62 个进程运行作业时,它会死掉

$mpirun -np 62 a.out 
mpirun noticed that job rank 0 with PID 0 on node Macintosh-001D4F4BC6BC.private exited on signal 15 (Terminated). 
60 additional processes aborted (not shown)

当我使用 61 个进程运行它时,它运行良好。

【问题讨论】:

  • 我注意到 mpi hello world 程序存在同样的问题。信号 15 似乎是通用的。我的猜测是 mpi 库由于操作系统限制而终止,并且没有发出一个好的错误。

标签: macos osx-leopard mpi openmpi


【解决方案1】:

针对我的评论,我进行了一些谷歌搜索,我怀疑这是由操作系统设置的资源限制引起的。此外,倍数 2 附近的故障是可疑的。我最好的猜测是 mpi 库中的某些东西(可能是 MPI_Send)正在产生额外的进程,这些进程超过了 266 的限制(参见 ulimit -a)。

【讨论】:

  • 看起来是正确的。我设置了“ulimit -n 500”并修复了它。
  • @Milhous 你是如何设置ulimit -n 500的?这是在安装或运行 mpirun 的时候吗?
  • 运行 mpirun 时会这样。
猜你喜欢
  • 1970-01-01
  • 2011-03-03
  • 2010-11-27
  • 2014-01-31
  • 1970-01-01
  • 2015-12-24
  • 2011-08-24
  • 2012-08-09
相关资源
最近更新 更多