【发布时间】:2015-01-10 04:49:23
【问题描述】:
我最近安装了 Ubuntu 14.04.1 LTS。我正在编译我编写的一个小型矩阵加法程序,matrixAddition.cu。我像这样编译代码:nvcc matrixAddition.cu -o matAdd。 生成的矩阵应该显示 7 7 7 ... 因为我正在添加一个 5 的数组和一个 2 的数组。但是,它为我打印了 5 5 5 ...。内核是否由于某种原因无法工作?我错过了一些代码吗?感谢阅读。
matrixAddition.cu
#include <iostream>
#include <stdio.h>
__global__ void matAdd(int * d_arra, int * d_arrb, int * length)
{
int id = threadIdx.x;
if(id<*length)
{
d_arra[id]=d_arra[id]+d_arrb[id];
}
}
int main () {
//cpu varriables
int arra[100];
int arrb[100];
int leng = 100;
//gpu varriables
int * d_arra;
int * d_arrb;
int * length;
//-std=c++11
for(int itr=0;itr<100;itr++){arra[itr]=5;arrb[itr]=2;}
cudaMalloc( (void**)&d_arra, 100*sizeof(int));
cudaMalloc( (void**)&d_arrb, 100*sizeof(int));
cudaMemcpy( d_arra, arra, 100*sizeof(int), cudaMemcpyHostToDevice );
cudaMemcpy( d_arrb, arrb, 100*sizeof(int), cudaMemcpyHostToDevice );
cudaMemcpy( length, &leng, sizeof(int), cudaMemcpyHostToDevice );
//max thread per block 1024
matAdd<<<1, 1024>>>(d_arra, d_arrb, length);
cudaMemcpy( arra, d_arra, 100*sizeof(int), cudaMemcpyDeviceToHost );
cudaFree( d_arra );
cudaFree( d_arrb );
cudaFree( length );
std::cout << " our data \n";
for(int itr=0;itr<100;itr++){std::cout << arra[itr]; if(itr%10==0&&itr!=0){std::cout <<"\n";}}
std::cout<<std::endl;
return 0;
}
【问题讨论】:
-
任何时候遇到 CUDA 代码问题时,最好使用 proper cuda error checking。 (不过,我相信袁的回答是正确的。)