【问题标题】:CUDA: please help me to find error in my codeCUDA:请帮我找出我的代码中的错误
【发布时间】:2011-10-22 08:51:00
【问题描述】:

有使用 GPU 的代码:

__global__ void gpu_process(float* input, float* weights, float* output, int psize, int size)
{
    int i = blockIdx.x*blockDim.x + threadIdx.x;
    int j = blockIdx.y*blockDim.y + threadIdx.y;
    if(i < psize && j < size)
        output[j] += input[i] * weights[i * size + j];
}
void process(float* input, float* weights, float* output, size_t psize, size_t size)
{
    float* in_d, *w_d, *out_d;
    cudaMalloc((void**)&in_d, psize * sizeof(float));
    cudaMalloc((void**)&w_d, psize * size * sizeof(float));
    cudaMalloc((void**)&out_d, size * sizeof(float));
    for(size_t i = 0; i < size; i++)
        output[i] = 0;
    cudaMemcpy(in_d, input, psize * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(w_d, weights, psize * size * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(out_d, output, size * sizeof(float), cudaMemcpyHostToDevice);
    int rx = psize, ry = size, block_x = min((int)psize, 32), block_y = min((int)size, 32);
    dim3 dimBlock(block_x, block_y);
    dim3 dimGrid(ceil(float(rx) / block_x), ceil(float(ry) / block_y));
    gpu_process<<<dimGrid, dimBlock>>>(in_d, w_d, out_d, psize, size);
    cudaThreadSynchronize();
    cudaMemcpy(output, out_d, size * sizeof(float), cudaMemcpyDeviceToHost);
    cudaFree(in_d);
    cudaFree(out_d);
    cudaFree(w_d);
}

有代码做同样的事情,但只使用 CPU:

int blockIdxx, blockIdxy, blockDimx, blockDimy, threadIdxx, threadIdxy;
void cpu_process(float* input, float* weights, float* output, int psize, int size)
{
    int i = blockIdxx*blockDimx + threadIdxx;
    int j = blockIdxy*blockDimy + threadIdxy;
    if(i < psize && j < size)
        output[j] += input[i] * weights[i * size + j];
}
void process(float* input, float* weights, float* output, size_t psize, size_t size)
{
    for(size_t i = 0; i < size; i++)
            output[i] = 0;
    int rx = psize, ry = size, block_x = min((int)psize, 32), block_y = min((int)size, 32);
    blockDimx = block_x;
    blockDimy = block_y;
    int gridDimx = ceil(float(rx) / block_x), gridDimy = ceil(float(ry) / block_y);
    for(blockIdxx = 0; blockIdxx < gridDimx; blockIdxx++)
        for(blockIdxy = 0; blockIdxy < gridDimy; blockIdxy++)
            for(threadIdxx = 0; threadIdxx < blockDimx; threadIdxx++)
                for(threadIdxy = 0; threadIdxy < blockDimy; threadIdxy++)
                    cpu_process(input, weights, output, psize, size);
}

为什么 CPU 变体正常工作,但 GPU 变体在输出中返回垃圾?有什么不同

cuda-toolkit 版本:4.0

操作系统:Debian GNU/Linux,从它的存储库安装 cuda。

GPU:NVIDIA GeForce GT 525M。

【问题讨论】:

  • 向您的 CUDA 代码添加错误检查 - 每个 API 调用都会返回一个状态。检查它们。
  • 在我的脑海中,我会说GPU版本是并发车祸:计算相同值j的所有线程以未指定的顺序访问相同的内存。这怎么行?精心设计的 GPU 调用将让每个踏板只访问对 (i,j) 唯一的数据。
  • 我尝试添加错误检查。没有错误。
  • @KerrekSB,我会尝试解决这个问题。
  • 另请注意,您的块是至少 32x32,即 1024,但在所有当前的 CUDA 版本中,您可以有 最多 1024 个线程阻止!

标签: c++ cuda gpu


【解决方案1】:

cudaThreadSyncronize 已弃用且不应使用,而是使用 cudaDeviceSyncronize,检查这些错误代码,因为如果线程失败,它们将返回错误。这些也会阻塞之后的所有代码,直到任务完成,因此您还可以在其间添加一些计时代码以查找瓶颈。

【讨论】:

    猜你喜欢
    • 2021-07-18
    • 2021-08-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-26
    • 1970-01-01
    • 2012-08-18
    相关资源
    最近更新 更多