【发布时间】:2012-02-02 05:26:05
【问题描述】:
想问一下在CUDA中写入全局内存的效果。众所周知,全局内存读取通常会对性能产生很大影响(合并、缓存、银行冲突),因为它们可能需要相当多的周期来等待传入的内存,这可能会暂时阻塞执行。
但是,在 CUDA 中写入内存呢?它是否受到任何类型的内存写入模式的影响?总成本直接是内核中所有写入的总和吗?
任何相关的参考资料和 cmets 将不胜感激。
【问题讨论】:
-
这正是使用实验程序探索的有趣问题。您可以编写一个基本的 OpenCL 或 CUDA 程序,以各种模式执行数百万次读取和写入。在一个循环中一遍又一遍地运行你的测试,看看你平均得到了什么。这可能是学习每个 API 的无聊部分以启动的好方法。
-
感谢詹姆斯的评论!
标签: cuda opencl gpu gpgpu nvidia