【发布时间】:2017-01-22 16:52:10
【问题描述】:
CUDA 允许使用 cuMemcpy 异步函数和 流 重叠计算和数据传输。但是 NPP(Performance Primitives) 有可能吗?
一点背景。我正在尝试使用 NPP 图像调整大小函数来利用 GPU(在我们的例子中是 nppiResize_8u_C3R)。我正在使用固定内存并使用 cuMemcpy2DAsync_v2 和 每个线程流 成功地将数据传输到 GPU。问题是 nppiResize_8u_C3R 和所有其他计算函数不接受流。
当我运行 Nvidia Visual Profiler 时,我看到了下一个:
- 固定内存让我可以更快地传输数据 - ~6.524 GB/s。
- memcpy 与计算并行执行的时间百分比为 0%。
【问题讨论】: