【发布时间】:2014-05-23 00:47:28
【问题描述】:
我有一个输入图像“让它成为一个 1024 * 1024 像素的缓冲区,带有 RGBA 颜色数据”
我想要为每个像素做的是根据邻居过滤它,例如 x 和 y 方向的 [-15,15]
所以我担心的是,使用全局内存执行此操作将对每个像素进行 31 * 31 次全局内存访问“这将是非常性能瓶颈”,而且我不确定多个线程尝试读取的行为在同一时间相同的内存位置“可能是其中一些无法读取所以 -> 垃圾数据输入 -> 垃圾数据输出”
这个问题是针对 CUDA 或 OpenCL 的,因为概念应该是相同的 我知道共享内存(每个工作组)或本地内存(每个线程)无法解决这个问题,因为我无法读取另一个线程本地内存或另一个组共享内存“如果我误解了这个概念,请纠正我”
【问题讨论】: