尽管有更好的 GPU，但在 Google Colab 上的训练比在本地机器上的训练要慢 - 为什么？答案

【问题标题】：Training on Google Colab is slower than on local machine despite having better GPU - why?尽管有更好的 GPU，但在 Google Colab 上的训练比在本地机器上的训练要慢 - 为什么？
【发布时间】：2021-07-24 19:25:02
【问题描述】：

我有一个 DL 模型要训练，由于数据非常大，我将它存储在我的 Google 磁盘上，我在每个会话开始时将它安装到我的 Google Colab 实例中。但是，我注意到在 Google Colab 上使用完全相同的脚本训练完全相同的模型比在我的个人笔记本电脑上慢 1.5-2 倍。问题是我检查了 Google Colab GPU，它有 12GB RAM（我不确定如何检查确切的型号），而我的笔记本电脑 GPU 是 RTX 2060，只有 6GB RAM。因此，作为 Google Colab 的新用户，我一直想知道可能是什么原因。这是因为使用 Torch DataLoader 从已安装的 Disk Google 加载数据会减慢进程吗？或者这可能是因为我的个人硬盘是 SSD，而 Google Colab 可能没有将 SSD 连接到我的实例？如果我没有对我的 Google Colab 设置进行任何减慢训练的操作，我该如何进一步验证？

【问题讨论】：

这只是 colab 对长流程的限制。如有必要，它们可能会限制甚至禁止使用。

标签： gpu google-colaboratory torch

【解决方案1】：

Google Colaboratory 的资源是动态分配给用户实例的。简短的交互式流程优于长时间运行的数据加载，流程的更多信息可以在文档中找到：

https://research.google.com/colaboratory/faq.html#resource-limits

具体引用自上述链接

“GPU 和 TPU 有时会优先考虑以交互方式使用 Colab 而不是长时间运行的计算的用户，或者最近在 Colab 中使用较少资源的用户......因此，使用 Colab 进行长时间运行的用户计算或最近在 Colab 中使用更多资源的用户更有可能遇到使用限制”

【讨论】：