【问题标题】:OpenACC and Unified memoryOpenACC 和统一内存
【发布时间】:2019-08-13 18:42:39
【问题描述】:

您好,我尝试使用 Tesla V100 在 Google Cloud 中运行我的程序(使用 OpenACC、OpenMP 和 CUDA 统一内存)并且它运行成功,但我使用 1xGPU 8xCores 和 50GB 内存并尝试使用所有内存有,所以我使用 htop 控制 RAM 消耗,当我使用少量 RAM 时,所有工作都很完美我有这些数据: VIRT = 26.8G,RES = 21.5G,SHR = 7440M。 当我尝试使用更多 RAM 时,htop 显示如下: VIRT = 27.2G,RES = 22.3G,SHR = 7700M - 这就像“极限”。 程序分配数据并“卡”在这个参数上(以 5MB\s 的速度分配)。我能用这个做什么?以及如何使用更多具有 CUDA 统一内存的 GPU?我也尝试使用 2xV100,但没有区别(我以为我可以使用 2xVRAM)。

【问题讨论】:

    标签: cuda openmp openacc


    【解决方案1】:

    我相信 UVM 可以通过多个 GPU 开箱即用(减去一些初始启动成本)。正如here 所提到的,托管分配可以按需迁移到其他处理器,因此访问另一个 GPU 上的数据应该只是触发迁移,程序员看不到。不过,我对剩下的问题有点困惑。

    【讨论】:

      猜你喜欢
      • 2021-02-25
      • 2013-04-27
      • 2012-10-07
      • 1970-01-01
      • 2020-06-01
      • 1970-01-01
      • 2011-08-19
      • 1970-01-01
      • 2017-04-30
      相关资源
      最近更新 更多