【问题标题】:Why can't I overlap asynchronous memcpy with kernel execution on fermi on win7 and CUDA 5.0?为什么我不能在 win7 和 CUDA 5.0 上的 fermi 上将异步 memcpy 与内核执行重叠?
【发布时间】:2013-05-28 21:53:13
【问题描述】:

我什至无法使用 CUDA SDK 中的 simpleStreams 示例实现重叠的 memcpy 和内核执行,更不用说在我自己的程序中了。这些线程认为这是 Windows 中的 WDDM 驱动程序的问题:

并建议:

  • 使用cudaEventQuery()cudaEventQuery() 刷新WDDM 队列。 (不起作用)。
  • 以广度优先方式提交流。 (不起作用)。

这个帖子认为这是 fermi 中的一个错误:

这个话题:

提出了一种解决方案来缓解 Windows 上的 WDDM 问题。但是,它仅适用于 Tesla 卡,并且需要额外的视频卡来控制显示器,因为建议的驱动程序是纯计算驱动程序。

但是,这些线程都没有提供真正的解决方案。如果 NVIDIA 能对这个问题发表评论并提出解决方案,我将不胜感激,因为显然很多人都遇到了这个问题。

【问题讨论】:

  • 您使用的是哪个 GPU?您使用的是哪个 NVIDIA Windows 驱动程序?
  • 我用的是GTX 460,最新的硬件驱动:320.18
  • GTX 460 有一个单一的复制引擎,所以在任何情况下你能看到的最多的复制/计算重叠是一个计算内核的 1 个副本(即在一个方向上)。您将无法在两个方向上看到完整的复制/计算重叠。这也可能对您如何构建 memcpy 和内核调用操作的序列有影响。较新的 Tesla GPU 通常有 2 个复制引擎,可用于不同的场景。
  • 罗伯特,感谢您的回复。但是,我没有看到任何方向的 memcpy / 计算重叠。所有内核执行和异步 memcpy 都是序列化的。
  • @Luc 您的问题现在解决了吗?你试过别的吗?您是否尝试过我发布的答案?它确实帮助了我!非常感谢您的反馈。

标签: cuda


【解决方案1】:

TL;DR: 该问题是由 Nsight Monitor 中的 WDDM TDR 延迟选项引起的!当设置为 false 时,会出现问题。相反,如果您设置 TDR 延迟值到一个非常高的数字,并且“启用”选项 确实,问题消失了。

阅读下面的其他(旧)步骤,直到我找到上述解决方案,以及其他一些可能的原因。

我最近才能够解决这个问题!我认为它是特定于 windows 和 aero 的。请尝试这些步骤并发布您的结果以帮助他人!我在 GTX 650 和 GT 640 上试过。

在您做任何事情之前,请考虑using both onboard gpu(as display) and the discrete gpu (for computations),因为已验证适用于 Windows 的 nvidia 驱动程序存在问题!当您使用板载 gpu 时,所说的驱动程序没有完全加载,因此避免了很多错误。此外,在工作时保持系统响应能力!

  1. 确保您的并发问题与旧驱动程序(包括 bios)、错误代码、无法使用的设备等其他问题无关。
  2. 转到计算机>属性
  3. 选择左侧的高级系统设置
  4. 转到“高级”选项卡
  5. 关于性能点击设置
  6. 在“视觉效果”选项卡中,选择“调整以获得最佳性能”项目符号。

这将禁用航空和几乎所有视觉效果。如果此配置有效,您可以尝试逐一启用视觉效果框,直到找到导致问题的精确框!

或者,您可以:

  1. 桌面右键,选择个性化
  2. 从基本主题中选择一个不包含 aero 的主题。

这也可以像上面那样工作,但启用了更多的视觉选项。对于我的两台设备,这个设置也有效,所以我保留了它。

当您尝试这些解决方案时,请回到这里并发布您的发现!

对我来说,它解决了大多数情况下的问题(我制作了一个平铺的 dgemm),但请注意我仍然无法正确运行“simpleStreams”并且实现并发...

更新:问题已通过新的 Windows 安装完全解决!!之前的步骤改善了某些情况下的行为,但全新安装解决了所有问题!

我会尝试找到一种不太激进的方法来解决这个问题,也许只恢复注册表就足够了。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-12-14
    • 2015-09-15
    • 1970-01-01
    • 2011-09-25
    • 1970-01-01
    • 1970-01-01
    • 2020-12-04
    相关资源
    最近更新 更多