【问题标题】:mpirun performance analysismpirun 性能分析
【发布时间】:2019-08-16 05:29:03
【问题描述】:

我在 Ubuntu 18.04 上运行 mpirun (OpenMPI),在 12 个 CPU 和 2 个 GPU 上有 86 个进程。正在运行的应用程序正在训练神经网络。

经过一天左右的训练后,迭代速度显着减慢。代码在单线程上运行良好,网络流量(文件读取)在规范范围内,CPU 和 GPU 没有显示过多的负载。

所以我认为问题出在 mpirun 上。

是否有可用的非侵入式工具来显示 MPI 运行的性能?我一直在研究 Performance Co-Pilot,但在软件本身中没有看到任何 MPI 分析。

【问题讨论】:

  • 你检查内存使用了吗?如果发生内存泄漏,您的节点将在一段时间后开始交换,并且变得非常慢。
  • @GillesGouaillardet 是的,但没有进行交换,内存使用率在 60% 到 80% 之间

标签: performance ubuntu mpi


【解决方案1】:

Callgrind 和 kcachegrind 可能有用。此处 [1] 的简要介绍也可能对您有所帮助。

[1]https://www.open-mpi.org/faq/?category=debugging#parallel-debuggers

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-12-13
    • 2016-07-28
    • 2011-06-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多