【发布时间】:2014-06-25 22:45:50
【问题描述】:
请注意,这个共享内存数组永远不会被写入,只会被读取。
正如我所拥有的那样,我的共享内存被初始化为:
__shared__ float TMshared[2592];
for (int i = 0; i< 2592; i++)
{
TMshared[i] = TM[i];
}
__syncthreads();
(TM 从内核启动传递到所有线程)
您可能已经注意到这是非常低效的,因为没有进行并行化,并且同一块中的线程正在写入同一位置。
由于所讨论的共享数组相对较小,如果这个问题真的需要优化,有人可以推荐一种更有效的方法/评论吗?
谢谢!
【问题讨论】: