【问题标题】:Run mpi program on cluster在集群上运行 mpi 程序
【发布时间】:2018-09-28 14:13:29
【问题描述】:

我在集群上运行 mpi 程序时遇到问题。

我的主机文件如下所示:

10.0.9.1 slots=2
10.0.12.1 slots=2
10.0.11.1 slots=2
10.0.10.1 slots=2
10.0.6.1 slots=2
10.0.5.1 slots=2
10.0.4.1 slots=2
10.0.2.1 slots=2
10.0.1.1 slots=2

如您所见,我有 8 个节点。运行后一些进程结束工作,但其他返回错误:

node02][[62903,1],7][btl_tcp_endpoint.c:796:mca_btl_tcp_endpoint_complete_connect] connect() to 10.1.4.1 failed: No route to host (113)
[node04][[62903,1],15][btl_tcp_endpoint.c:796:mca_btl_tcp_endpoint_complete_connect] connect() to 10.1.5.1 failed: No route to host (113)

我很惊讶 node02 正在尝试连接 10.1.4.1 主机(我没有在主机等中得到这个地址)。 第二个错误与之前的错误类似,这意味着 node4 正在尝试连接 10.1.5.1。我的地址是 10.0.x.1 而不是 10.1.x.1 为什么是这样,我在哪里可以找到它?

modprobe: ERROR: could not insert 'ip_tables': Operation not permitted
iptables v1.4.21: can't initialize iptables table `filter': Table does not exist (do you need to insmod?)
Perhaps iptables or your kernel needs to be upgraded.

编辑:

我已经测试了许多配置,我发现我只能在任何节点上运行 10 个程序副本 (-np 10)。任何更大的值,例如 -np 12 都会出现上述错误。

比如节点的配置就ok了:

10.0.11.1 slots=1
10.0.10.1 slots=1
10.0.9.1 slots=1
10.0.6.1 slots=2
10.0.5.1 slots=1
10.0.4.1 slots=2
10.0.2.1 slots=2

你遇到过这样的问题吗?

【问题讨论】:

    标签: mpi openmpi


    【解决方案1】:

    在 Open MPI 中,主机文件中的 IP 在内部用于启动作业。 如果您未在受支持的资源管理器下运行,则 plm/rsh 组件将使用这些 IP 来访问远程节点上的 ssh(或 rshorted 守护进程。

    对于通信,btl/tcp 组件将检测所有可用接口并尝试全部使用。

    在您的情况下,您可能必须将 10.1.0.0/16 网络列入黑名单,或限制为 10.0.0.0/16 网络。这可以通过命令行来实现:

    mpirun --mca btl_tcp_if_exclude 10.1.0.0/16 ...
    

    mpirun --mca btl_tcp_if_include 10.0.0.0/16 ...
    

    请注意,您可能还必须限制用于连接作业的oob/tcp 组件。与 btl/tcp 不同,此组件使用第一个工作 IP,因此可能不需要。

    mpirun --mca btl_tcp_if_inlclude 10.0.0.0/16 --mca oob_tcp_if_include 10.0.0.0/16 ...
    

    【讨论】:

    • 我添加了一些新信息,因为我可以使用任何节点但只能复制 10 份程序。这对我来说很奇怪......
    • 如果将网络限制为 10.0.0.0/16 会发生什么?我的第一印象是10.1.0.0/16 子网有问题,您可能“很幸运”它适用于少量任务。
    猜你喜欢
    • 2017-01-09
    • 2015-10-09
    • 2019-11-18
    • 2020-04-21
    • 2017-08-19
    • 2016-03-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多