【发布时间】:2017-02-27 13:37:52
【问题描述】:
认为我有一个大小为 1024 的块,并假设我的 gpu 有 192 个 cuda 核心。 当 cuda 内核大小小于块大小时,cuda 如何处理内核中的 __syncthreads()?
__global__ void staticReverse(int *d, int n)
{
__shared__ int s[1024];
int t = threadIdx.x;
int tr = n-t-1;
s[t] = d[t];
__syncthreads();
d[t] = s[tr];
}
“tr”在本地内存中的剩余情况如何?
【问题讨论】:
标签: cuda