在一定数量的 epoch 之后，Colab GPU 执行变得非常缓慢

【问题标题】：Colab GPU execution becomes very slow after certain number of epochs在一定数量的 epoch 之后，Colab GPU 执行变得非常缓慢
【发布时间】：2021-06-15 02:30:48
【问题描述】：

我正在使用 google colab 上的神经网络运行图像重建代码。我正在使用 GPU 加速器为模型训练 500 个 epoch，但前 446 个 epoch 每个 epoch 需要 12 秒才能运行，第 447 个 epoch 需要 864 秒，第 448 个 epoch 显示 ETA 超过 2 小时。运行时仍然是 GPU，有人可以解释为什么花费的时间增加了这么多吗？（请注意，在一次训练中，会话在第 447 个 epoch 时崩溃，说它用完了所有 RAM。

【问题讨论】：

标签： keras google-colaboratory

【解决方案1】：

你没有显示任何代码，所以我只能想象问题可能是什么：

也许模型历史会随着每个时期的增长而增长，并达到它吸收所有 RAM 的地步。

我不知道不保存model.fit的输出是否解决了问题（我什至不知道你是否正在这样做）。

解决此问题的方法之一是使用函数save_model 保存模型，然后重新启动会话并从加载的模型开始训练，而不是从零开始。

来源：

https://www.tensorflow.org/guide/keras/save_and_serialize

【讨论】：