【发布时间】:2018-05-03 19:36:43
【问题描述】:
我正在编写一个简单的光线追踪器。这个想法是,对于每个像素,都有一个线程遍历驻留在全局内存中的某个结构(几何)。
我像这样调用我的内核:
trace<<<gridDim, blockDim>>>(width, height, frameBuffer, scene)
其中scene 是先前分配有cudaMalloc 的结构。每个线程都必须从同一个节点开始遍历这个结构,并且很可能许多并发线程会尝试多次读取同一个节点。这是否意味着当这样的读取发生时,它会削弱并行度?
鉴于几何体很大,我认为复制它不是一种选择。我的意思是整个处理过程仍然发生得相当快,但我想知道这是必须处理的事情,还是只是随随便便。
【问题讨论】:
标签: cuda gpgpu raytracing