OpenACC 和统一内存答案

【问题标题】：OpenACC and Unified memoryOpenACC 和统一内存
【发布时间】：2019-08-13 18:42:39
【问题描述】：

您好，我尝试使用 Tesla V100 在 Google Cloud 中运行我的程序（使用 OpenACC、OpenMP 和 CUDA 统一内存）并且它运行成功，但我使用 1xGPU 8xCores 和 50GB 内存并尝试使用所有内存有，所以我使用 htop 控制 RAM 消耗，当我使用少量 RAM 时，所有工作都很完美我有这些数据： VIRT = 26.8G，RES = 21.5G，SHR = 7440M。当我尝试使用更多 RAM 时，htop 显示如下： VIRT = 27.2G，RES = 22.3G，SHR = 7700M - 这就像“极限”。程序分配数据并“卡”在这个参数上（以 5MB\s 的速度分配）。我能用这个做什么？以及如何使用更多具有 CUDA 统一内存的 GPU？我也尝试使用 2xV100，但没有区别（我以为我可以使用 2xVRAM）。

【问题讨论】：

标签： cuda openmp openacc

【解决方案1】：

我相信 UVM 可以通过多个 GPU 开箱即用（减去一些初始启动成本）。正如here 所提到的，托管分配可以按需迁移到其他处理器，因此访问另一个 GPU 上的数据应该只是触发迁移，程序员看不到。不过，我对剩下的问题有点困惑。

【讨论】：