cuda 内存合并答案

【问题标题】：cuda memory coalescingcuda 内存合并
【发布时间】：2013-01-25 10:41:33
【问题描述】：

我想首先确认以下几点：到共享内存的基本全局内存事务是 32 字节、64 或 128 字节，但前提是内存访问可以合并。先前交易的延迟都是相等的。对吗？

第二个问题：如果内存读取不能合并，每个线程只读取4个字节（是吗？）所有线程的内存访问都是顺序的吗？

【问题讨论】：

您可能希望查看一些可用的网络研讨会here。特别是有一些网络研讨会涵盖了内存高效操作和global memory（和video）和shared memory (video) 的合并。内存事务以 32 或 128 字节粒度的大小发生。

【解决方案1】：

这取决于您正在处理的架构。然而，在费米和开普勒上，你有：

如您所见，有几个变量决定了您的内存访问需要多长时间。一般的经验法则是：访问模式越密集 - 越好！步幅或错位现在不像过去那么昂贵，所以不要太担心这一点，除非你正在做一些后期优化。

【讨论】：