【发布时间】:2012-12-14 11:08:16
【问题描述】:
有没有人有使用零拷贝(参考这里:Default Pinned Memory Vs Zero-Copy Memory)内存模型分析 CUDA 应用程序性能的经验?
我有一个使用零拷贝功能和 NVVP 的内核,我看到以下内容:
以平均问题大小运行内核,我得到 0.7% 的指令重放开销,所以没什么大不了的。所有这 0.7% 都是全局内存重放开销。
当我真正增加问题大小时,我得到了 95.7% 的指令重播开销,所有这些都是由于全局内存重播开销造成的。
但是,正常问题大小的内核运行和非常非常大的问题大小的内核运行的全局加载效率和全局存储效率是相同的。我不太确定如何利用这些指标组合。
我不确定的主要是 NVVP 中的哪些统计数据可以帮助我了解零拷贝功能的情况。关于我应该查看哪种类型的统计数据有什么想法吗?
【问题讨论】: