【发布时间】:2015-06-05 09:41:48
【问题描述】:
我正在使用具有 8 个处理器的 linux 集群,但我无法联系到它的管理员或任何更熟悉使用它的人。我正在尝试在所有节点上运行 MPI 程序,但我无法在不知道其名称的情况下创建 --machinelife 文件。所以我的问题如下 - 我怎样才能找到所有节点的名称,只能从其中一个节点编写命令?甚至可能吗?提前致谢。
【问题讨论】:
-
这个集群用什么调度软件?如果它使用 PBS/Torque,您可以阅读文件
$PBS_NODEFILE。只需运行cat $PBS_NODEFILE即可查看已分配给您的作业的所有节点的名称。 -
您可以检查头节点的网络配置并尝试猜测或扫描网络中的其他节点。大多数 MPI 实现将接受 IP 地址而不是主机名。另外,查看
/etc/hosts- 名称可能在那里。无论如何,这个问题在这里是题外话,你真的应该在Super User site 上提问。 -
感谢您的关心,很遗憾,这些都不起作用。结果中的 cat $PBS_NODEFILE 只会断开我的连接(我正在使用 WinSCP)。我不知道集群使用的是什么调度软件。我也无权访问 /etc/hosts 文件。好像我需要使用一个我知道的集群;]
标签: linux parallel-processing mpi cluster-computing