【发布时间】:2012-04-27 20:43:22
【问题描述】:
我正在尝试使用 CUDA 2.0 (NVIDIA 590) 处理大型结构数组。我想为此使用共享内存。我尝试了 CUDA 占用计算器,尝试为每个线程分配最大共享内存,以便每个线程可以处理数组的整个元素。 然而,我在计算器中看到的(每块共享内存)/(每块线程)的最大值为 32 字节,100% 多处理器负载是 32 字节,这对于单个元素(数量级)来说是不够的。 32 字节是(每块共享内存)/(每块线程)的最大可能值吗? 是否可以说哪个alternative4native更可取-在全局内存中分配部分数组还是只使用负载不足的多处理器?还是只能通过实验来决定? 我可以看到的另一种选择是多次处理数组,但它看起来像是最后的手段。 那是我第一次尝试用 CUDA 做一些真正复杂的事情,所以我可能会错过一些其他的选择......
【问题讨论】:
标签: cuda gpgpu gpu-shared-memory