【发布时间】:2017-05-27 05:47:05
【问题描述】:
我已经使用 CUDA 一个月了,现在我想弄清楚需要多少扭曲/块来隐藏内存访问的延迟。我认为这与多处理器上的最大常驻扭曲有关。
根据 CUDA_C_Programming_Guide (v-7.5) 中的 Table.13,每个多处理器的驻留扭曲的最大值为 64。 然后,我的问题是:什么是常驻经线?它是指那些从 GPU 内存读取的数据并准备好由 SP 处理的扭曲吗?或者指可以为数据读取内存的warp或准备由SP处理的warp,这意味着除了这64个warp之外的其余warp既不能读取内存也不能被SP处理,直到这64个驻留warp中的一些完成.
【问题讨论】:
标签: cuda gpu gpu-warp warp-scheduler