【发布时间】:2020-05-04 10:36:49
【问题描述】:
我在 Google Colab 上使用 GPU 来运行一些深度学习代码。
我已经完成了 70% 的培训,但现在我不断收到以下错误:
RuntimeError: CUDA out of memory. Tried to allocate 2.56 GiB (GPU 0; 15.90 GiB total capacity; 10.38 GiB already allocated; 1.83 GiB free; 2.99 GiB cached)
我试图理解这意味着什么。它是在谈论RAM内存吗?如果是这样,代码应该和一直在做的一样运行,不是吗?当我尝试重新启动它时,内存消息立即出现。为什么我今天启动它时会使用比我昨天或前一天启动它时更多的 RAM?
或者这个消息是关于硬盘空间的?我可以理解,因为代码会在执行过程中保存内容,因此硬盘使用量是累积的。
任何帮助将不胜感激。
因此,如果只是 GPU 内存不足 - 有人可以解释为什么错误消息显示 10.38 GiB already allocated - 当我开始运行某些东西时,怎么可能已经分配了内存。会不会被别人使用?我只需要等待稍后再试吗?
这是我运行代码时 GPU 使用情况的屏幕截图,就在它耗尽内存之前:
我发现this post 中人们似乎遇到了类似的问题。当我运行该线程上建议的代码时,我看到:
Gen RAM Free: 12.6 GB | Proc size: 188.8 MB
GPU RAM Free: 16280MB | Used: 0MB | Util 0% | Total 16280MB
这似乎表明有 16 GB 的可用 RAM。
我很困惑。
【问题讨论】:
-
"GPU 0" 应该是一个非常明显的线索——你的 GPU 内存用完了
-
@talonmies GPU0 指第一个逻辑 GPU(GPU0、GPU1、GPU2 等)
标签: memory gpu google-colaboratory