【问题标题】:CUDA: Reduce algorithmCUDA:减少算法
【发布时间】:2016-01-04 17:23:55
【问题描述】:

我是 C++/CUDA 的新手。我尝试实现并行算法“reduce”,它能够处理任何类型的输入大小和线程大小,而不会通过递归内核的输出(在 内核包装器中 em>)。

例如Implementing Max Reduce in Cuda 这个问题的最佳答案,当线程大小足够小时,他/她的实现基本上是顺序的。

但是,当我编译和运行它时,我不断收到“分段错误”..?

>> nvcc -o mycode mycode.cu
>> ./mycode
Segmentail fault.

在带有 cuda 6.5 的 K40 上编译

这里是内核,与我链接检查器“越界”的SO帖子基本相同:

#include <stdio.h>

/* -------- KERNEL -------- */
__global__ void reduce_kernel(float * d_out, float * d_in, const int size)
{
  // position and threadId
  int pos = blockIdx.x * blockDim.x + threadIdx.x;
  int tid = threadIdx.x;

  // do reduction in global memory
  for (unsigned int s = blockDim.x / 2; s>0; s>>=1)
  {
    if (tid < s)
    {
      if (pos+s < size) // Handling out of bounds
      {
        d_in[pos] = d_in[pos] + d_in[pos+s];
      }
    }
  }

  // only thread 0 writes result, as thread
  if (tid==0)
  {
    d_out[blockIdx.x] = d_in[pos];
  }
}

我提到的内核包装器在 1 个块不包含所有数据时处理。

/* -------- KERNEL WRAPPER -------- */
void reduce(float * d_out, float * d_in, const int size, int num_threads)
{
  // setting up blocks and intermediate result holder
  int num_blocks = ((size) / num_threads) + 1;
  float * d_intermediate;
  cudaMalloc(&d_intermediate, sizeof(float)*num_blocks);

  // recursively solving, will run approximately log base num_threads times.
  do
  {
    reduce_kernel<<<num_blocks, num_threads>>>(d_intermediate, d_in, size);

    // updating input to intermediate
    cudaMemcpy(d_in, d_intermediate, sizeof(float)*num_blocks, cudaMemcpyDeviceToDevice);

    // Updating num_blocks to reflect how many blocks we now want to compute on
      num_blocks = num_blocks / num_threads + 1;

    // updating intermediate
    cudaMalloc(&d_intermediate, sizeof(float)*num_blocks);
  }
  while(num_blocks > num_threads); // if it is too small, compute rest.

  // computing rest
  reduce_kernel<<<1, num_blocks>>>(d_out, d_in, size);

}

用于初始化输入/输出并创建用于测试的虚假数据的主程序。

/* -------- MAIN -------- */
int main(int argc, char **argv)
{
  // Setting num_threads
  int num_threads = 512;
  // Making bogus data and setting it on the GPU
  const int size = 1024;
  const int size_out = 1;
  float * d_in;
  float * d_out;
  cudaMalloc(&d_in, sizeof(float)*size);
  cudaMalloc((void**)&d_out, sizeof(float)*size_out);
  const int value = 5;
  cudaMemset(d_in, value, sizeof(float)*size);

  // Running kernel wrapper
  reduce(d_out, d_in, size, num_threads);

  printf("sum is element is: %.f", d_out[0]);
}

【问题讨论】:

  • 主机代码出现分段错误,而不是 CUDA 设备代码。询问 SO 上的分段错误时的良好做法是识别导致错误的行(段错误始终可以定位到实际生成错误的特定代码行)。这种本地化可以通过分散在代码中的printf 语句或通过调试器轻松完成。

标签: c++ algorithm cuda parallel-processing reduce


【解决方案1】:

我想用你的代码指出一些事情。

  1. 作为一般规则/样板文件,我始终建议您使用 proper cuda error checking 并使用 cuda-memcheck 运行您的代码,只要您遇到 cuda 代码问题。然而,这些方法对段错误没有多大帮助,尽管它们以后可能会有所帮助(见下文)。

  2. 实际的段错误发生在这一行:

    printf("sum is element is: %.f", d_out[0]);
    

    您违反了一条基本的 CUDA 编程规则:主机指针不得在设备代码中取消引用,并且设备指针不得在主机代码中取消引用。后一种情况在这里适用。 d_out 是一个设备指针(通过cudaMalloc 分配)。如果您尝试在主机代码中取消引用这些指针,则这些指针没有任何意义,这样做会导致段错误。

    解决方法是先将数据复制回主机再打印出来:

    float result;
    cudaMemcpy(&result, d_out, sizeof(float), cudaMemcpyDeviceToHost);
    printf("sum is element is: %.f", result);
    
  3. 在循环中使用cudaMalloc,在同一个变量上,不做任何cudaFree操作,不是好的做法,并且可能导致长时间运行的循环中的内存不足错误,也可能导致存在内存泄漏的程序,如果在更大的程序中使用这样的结构:

    do
    {
      ...
    
      cudaMalloc(&d_intermediate, sizeof(float)*num_blocks);
    }
    while...
    

    在这种情况下,我认为更好的方法和简单的解决方法是在重新分配之前cudaFree d_intermediate

    do
    {
      ...
      cudaFree(d_intermediate);
      cudaMalloc(&d_intermediate, sizeof(float)*num_blocks);
    }
    while...
    
  4. 这可能不是你认为的那样:

    const int value = 5;
    cudaMemset(d_in, value, sizeof(float)*size);
    

    您可能知道这一点,但cudaMemsetmemset 一样,对字节数量进行操作。因此,您正在用对应于0x05050505 的值填充d_in 数组(当解释为float 数量时,我不知道该位模式对应于什么)。由于您引用了虚假值,因此您可能已经意识到这一点。但这是一个常见错误(例如,如果您实际上试图在每个 float 位置中使用值 5 初始化数组),所以我想我会指出这一点。

您的代码还有其他问题(如果您进行了上述修复,然后使用cuda-memcheck 运行您的代码,您会发现这些问题)。要了解如何做好并行缩减,我建议学习 CUDA 并行缩减 sample codepresentation。出于性能原因,不建议并行减少全局内存。

为了完整起见,以下是我发现的一些其他问题:

  1. 您的内核代码需要一个适当的 __syncthreads() 语句,以确保在任何线程进入 for 循环的下一次迭代之前,块中所有线程的工作都已完成。

  2. 您对内核中全局内存的最终写入还需要以读取位置为入界为条件。否则,您始终启动额外块的策略将允许从此行的读取超出范围(cuda-memcheck 将显示这一点)。

  3. reduce 函数中循环中的归约逻辑通常很混乱,需要通过多种方式重新处理。

我并不是说这段代码没有缺陷,但它似乎适用于给定的测试用例并产生正确的答案 (1024):

#include <stdio.h>

/* -------- KERNEL -------- */
__global__ void reduce_kernel(float * d_out, float * d_in, const int size)
{
  // position and threadId
  int pos = blockIdx.x * blockDim.x + threadIdx.x;
  int tid = threadIdx.x;

  // do reduction in global memory
  for (unsigned int s = blockDim.x / 2; s>0; s>>=1)
  {
    if (tid < s)
    {
      if (pos+s < size) // Handling out of bounds
      {
        d_in[pos] = d_in[pos] + d_in[pos+s];
      }
    }
    __syncthreads();
  }

  // only thread 0 writes result, as thread
  if ((tid==0) && (pos < size))
  {
    d_out[blockIdx.x] = d_in[pos];
  }
}

/* -------- KERNEL WRAPPER -------- */
void reduce(float * d_out, float * d_in, int size, int num_threads)
{
  // setting up blocks and intermediate result holder
  int num_blocks = ((size) / num_threads) + 1;
  float * d_intermediate;
  cudaMalloc(&d_intermediate, sizeof(float)*num_blocks);
  cudaMemset(d_intermediate, 0, sizeof(float)*num_blocks);
  int prev_num_blocks;
  // recursively solving, will run approximately log base num_threads times.
  do
  {
    reduce_kernel<<<num_blocks, num_threads>>>(d_intermediate, d_in, size);

    // updating input to intermediate
    cudaMemcpy(d_in, d_intermediate, sizeof(float)*num_blocks, cudaMemcpyDeviceToDevice);

    // Updating num_blocks to reflect how many blocks we now want to compute on
      prev_num_blocks = num_blocks;
      num_blocks = num_blocks / num_threads + 1;

    // updating intermediate
    cudaFree(d_intermediate);
    cudaMalloc(&d_intermediate, sizeof(float)*num_blocks);
    size = num_blocks*num_threads;
  }
  while(num_blocks > num_threads); // if it is too small, compute rest.

  // computing rest
  reduce_kernel<<<1, prev_num_blocks>>>(d_out, d_in, prev_num_blocks);

}

/* -------- MAIN -------- */
int main(int argc, char **argv)
{
  // Setting num_threads
  int num_threads = 512;
  // Making non-bogus data and setting it on the GPU
  const int size = 1024;
  const int size_out = 1;
  float * d_in;
  float * d_out;
  cudaMalloc(&d_in, sizeof(float)*size);
  cudaMalloc((void**)&d_out, sizeof(float)*size_out);
  //const int value = 5;
  //cudaMemset(d_in, value, sizeof(float)*size);
  float * h_in = (float *)malloc(size*sizeof(float));
  for (int i = 0; i <  size; i++) h_in[i] = 1.0f;
  cudaMemcpy(d_in, h_in, sizeof(float)*size, cudaMemcpyHostToDevice);

  // Running kernel wrapper
  reduce(d_out, d_in, size, num_threads);
  float result;
  cudaMemcpy(&result, d_out, sizeof(float), cudaMemcpyDeviceToHost);
  printf("sum is element is: %.f\n", result);
}

【讨论】:

  • 哇,您为此付出了很多努力。这对我理解 cuda 和并行化有很大帮助。我进一步在 while 条件下将“num_blocks”与“prev_num_blocks”交换,以获得另一轮并行化。谢谢。
猜你喜欢
  • 2014-05-21
  • 2014-09-11
  • 2018-04-15
  • 2013-12-01
  • 1970-01-01
  • 2014-06-13
  • 2018-06-14
  • 1970-01-01
相关资源
最近更新 更多