【发布时间】:2019-08-16 05:29:03
【问题描述】:
我在 Ubuntu 18.04 上运行 mpirun (OpenMPI),在 12 个 CPU 和 2 个 GPU 上有 86 个进程。正在运行的应用程序正在训练神经网络。
经过一天左右的训练后,迭代速度显着减慢。代码在单线程上运行良好,网络流量(文件读取)在规范范围内,CPU 和 GPU 没有显示过多的负载。
所以我认为问题出在 mpirun 上。
是否有可用的非侵入式工具来显示 MPI 运行的性能?我一直在研究 Performance Co-Pilot,但在软件本身中没有看到任何 MPI 分析。
【问题讨论】:
-
你检查内存使用了吗?如果发生内存泄漏,您的节点将在一段时间后开始交换,并且变得非常慢。
-
@GillesGouaillardet 是的,但没有进行交换,内存使用率在 60% 到 80% 之间
标签: performance ubuntu mpi