【发布时间】:2014-07-08 07:24:22
【问题描述】:
我使用 opencl 进行图像处理。例如,我有一张 1000*800 的图片。
我使用2D全局尺寸为1000*800,局部工作尺寸为10*8。
那么,GPU会自动给100*100个计算单元吗?
这 10000 个单元是否同时工作,所以可以并行?
如果硬件没有10000个单元,一个单元会做同样的事情超过一次吗?
我测试了本地尺寸,我发现如果我们使用非常小的尺寸(1*1)或大尺寸(100*80),它们都非常慢,但是如果我们使用中间值(10*8 ) 它更快。那么最后一个问题,为什么?
谢谢!
【问题讨论】:
标签: image-processing opencl gpu