【发布时间】:2017-10-27 07:49:04
【问题描述】:
我从头开始为 CUDA 创建了扫描算法,并尝试将其用于小于 80,000 字节的较小数据量。
创建了两个单独的实例,一个在可能的情况下使用流运行内核,另一个仅在默认流中运行。
我观察到,对于这个数据大小范围,与其他方法相比,使用流运行需要更长的时间来完成任务。
当使用 nvprofiler 进行分析时,观察到对于较小的数据量,在流中运行不会为单独的内核提供并行性
但是当数据大小增加时,可以获得某种并行性
我的问题是,是否有一些额外的参数可以减少这个内核调用时间延迟,或者对于使用流不利的较小数据大小有这种行为是否正常
更新:
我还包含了运行时 API 调用时间线以澄清答案
【问题讨论】:
标签: cuda cuda-streams