【发布时间】:2019-04-10 07:59:48
【问题描述】:
我有具有多个内核的 CUDA 程序在系列上运行(在同一个流中 - 默认值)。我想对整个程序进行性能分析,特别是 GPU 部分。我正在使用 nvprof 工具使用一些指标进行分析,例如 done_occupancy、inst_per_warp、gld_efficiency 等。
但是分析器为每个内核分别提供指标值,而我想为它们计算这些值以查看程序的 GPU 总使用量。 我应该为每个指标取所有内核的(平均值或最大值或总数)吗?
【问题讨论】:
-
我会使用加权平均值,其中加权因子是内核执行时间与所有内核执行时间的总和。
-
感谢您的回复,我非常需要。根据我的理解,如果我有 3 个内核并且我想计算它们的总体占用率,而我分别拥有每个内核的占用率: 1- 我必须首先计算每个内核的加权因子。 2-然后将该值乘以每个值的占用率?很抱歉造成混乱,但我如何计算总体入住率?
标签: performance cuda nvprof