【发布时间】:2011-08-04 07:56:56
【问题描述】:
我是 CUDA 的新手,需要帮助理解一些事情。我需要帮助并行化这两个 for 循环。具体如何设置 dimBlock 和 dimGrid 以使其运行更快。我知道这看起来像 sdk 中的向量添加示例,但该示例仅适用于方阵,当我尝试为我的 128 x 1024 矩阵修改该代码时,它无法正常工作。
__global__ void mAdd(float* A, float* B, float* C)
{
for(int i = 0; i < 128; i++)
{
for(int j = 0; j < 1024; j++)
{
C[i * 1024 + j] = A[i * 1024 + j] + B[i * 1024 + j];
}
}
}
这段代码是更大循环的一部分,也是代码中最简单的部分,所以我决定尝试并行化 thia 并同时学习 CUDA。我已阅读指南,但仍然不明白如何获得正确的编号。网格/块/线程的数量并有效地使用它们。
【问题讨论】:
标签: c++ visual-studio-2008 gpu cuda