【发布时间】:2011-06-06 06:21:27
【问题描述】:
我想通过将数据传输与内核执行重叠来优化我的CUDA 程序。但是 CUDA SDK 中的示例程序asyncAPI.cu 太简单了,无法提供帮助。
我确实搜索了这个问题,发现一些教程使用两个CUDA流来实现重叠。就我而言,需要计算大量数据,因此我需要循环遍历并将一部分数据发送到 GPU 每次迭代。但是我不怎么写这样的循环,因为所有操作都是异步的,我担心传输的数据会擦除/覆盖当前正在计算的那些。
有人经历过吗?
任何帮助将不胜感激。
【问题讨论】:
标签: cuda