c ++ Cuda代码未运行内核答案

【问题标题】：c++ Cuda code not running kernelc ++ Cuda代码未运行内核
【发布时间】：2015-01-10 04:49:23
【问题描述】：

我最近安装了 Ubuntu 14.04.1 LTS。我正在编译我编写的一个小型矩阵加法程序，matrixAddition.cu。我像这样编译代码：nvcc matrixAddition.cu -o matAdd。生成的矩阵应该显示 7 7 7 ... 因为我正在添加一个 5 的数组和一个 2 的数组。但是，它为我打印了 5 5 5 ...。内核是否由于某种原因无法工作？我错过了一些代码吗？感谢阅读。

matrixAddition.cu

    #include <iostream>
    #include <stdio.h>

  __global__ void matAdd(int * d_arra, int * d_arrb, int * length)
  {
    int id = threadIdx.x;
    if(id<*length)
    {
            d_arra[id]=d_arra[id]+d_arrb[id];
    }
 }


int main () {

    //cpu varriables
    int arra[100];
    int arrb[100];
    int leng = 100;

    //gpu varriables
    int * d_arra;
    int * d_arrb;
    int * length;

    //-std=c++11
    for(int itr=0;itr<100;itr++){arra[itr]=5;arrb[itr]=2;}

    cudaMalloc( (void**)&d_arra, 100*sizeof(int)); 
    cudaMalloc( (void**)&d_arrb, 100*sizeof(int)); 
    cudaMemcpy( d_arra, arra, 100*sizeof(int), cudaMemcpyHostToDevice ); 
    cudaMemcpy( d_arrb, arrb, 100*sizeof(int), cudaMemcpyHostToDevice ); 
    cudaMemcpy( length, &leng, sizeof(int), cudaMemcpyHostToDevice ); 


    //max thread per block 1024
    matAdd<<<1, 1024>>>(d_arra, d_arrb, length);
    cudaMemcpy( arra, d_arra, 100*sizeof(int), cudaMemcpyDeviceToHost ); 
    cudaFree( d_arra );
    cudaFree( d_arrb );
    cudaFree( length );

    std::cout << " our data \n";

    for(int itr=0;itr<100;itr++){std::cout << arra[itr]; if(itr%10==0&&itr!=0){std::cout <<"\n";}}
    std::cout<<std::endl;


 return 0;
}

【问题讨论】：

任何时候遇到 CUDA 代码问题时，最好使用 proper cuda error checking。（不过，我相信袁的回答是正确的。）

标签： c++ cuda

【解决方案1】：

该错误在 C 中很常见。变量“长度”未初始化。在将数据复制到地址之前，您忘记为点变量分配内存空间。

如果使用类型“int *”，则必须将其作为 d_arra/d_arrb 执行 cudaMalloc。但最好使用类型“int”而不是“int *”作为 CUDA 示例中的示例 vectorAdd，因为只有一个 int 被传递到您的 CUDA 设备。

另一个小问题是你的 cout 部分。由于数组索引从 0 开始，所以需要在 "(itr+1)%10==0 && itr!=0" 时输出换行符。

//cpu varriables
int arra[100];
int arrb[100];
int leng = 100;

//gpu varriables
int * d_arra;
int * d_arrb;
int * length;

//-std=c++11
for (int itr=0; itr<100; itr++)
{
    arra[itr]=5;
    arrb[itr]=2;
}

cudaMalloc( (void**)&d_arra, 100*sizeof(int)); 
cudaMalloc( (void**)&d_arrb, 100*sizeof(int)); 
cudaMalloc( (void**)&length, 1*sizeof(int)); // Add this line
cudaMemcpy( d_arra, arra, 100*sizeof(int), cudaMemcpyHostToDevice ); 
cudaMemcpy( d_arrb, arrb, 100*sizeof(int), cudaMemcpyHostToDevice ); 
cudaMemcpy( length, &leng, sizeof(int), cudaMemcpyHostToDevice ); 


//max thread per block 1024
matAdd<<<1, 1024>>>(d_arra, d_arrb, length);
cudaMemcpy( arra, d_arra, 100*sizeof(int), cudaMemcpyDeviceToHost ); 
cudaFree( d_arra );
cudaFree( d_arrb );
cudaFree( length );

std::cout << " our data \n";

for (int itr=0; itr<100; itr++)
{
    std::cout << arra[itr]; 
    if((itr+1)%10==0 && itr!=0)
    {
        std::cout <<"\n";
    }
}
std::cout<<std::endl;

【讨论】：