【发布时间】:2014-01-02 04:43:20
【问题描述】:
我必须使用 cuda 程序添加两个 N x N 方阵。本书要求为案例编写内核的配置参数:
(a) 每个线程只能处理1矩阵元素
(b) 每个线程产生一个输出矩阵行
(c) 每个线程产生一个输出矩阵列
我对上述问题的解决方案:
(一)
dim3 threadPerBlocks(1,1,1);
dim3 numBlocks(N,N,1);
(b)
dim3 threadPerBlocks(N,1,1);
dim3 numBlocks(1,N,1);
(c)
dim3 threadPerBlocks(1,N,1);
dim3 numBlocks(N,1,1);
我不知道我对 (b) 和 (c) 部分是对还是错。请告诉我这些并简要解释一下(如果有错误,请纠正我并解释)。
【问题讨论】:
标签: c matrix cuda parallel-processing gpgpu