【问题标题】:Colab GPU execution becomes very slow after certain number of epochs在一定数量的 epoch 之后,Colab GPU 执行变得非常缓慢
【发布时间】:2021-06-15 02:30:48
【问题描述】:

我正在使用 google colab 上的神经网络运行图像重建代码。我正在使用 GPU 加速器为模型训练 500 个 epoch,但前 446 个 epoch 每个 epoch 需要 12 秒才能运行,第 447 个 epoch 需要 864 秒,第 448 个 epoch 显示 ETA 超过 2 小时。运行时仍然是 GPU,有人可以解释为什么花费的时间增加了这么多吗? (请注意,在一次训练中,会话在第 447 个 epoch 时崩溃,说它用完了所有 RAM。

【问题讨论】:

    标签: keras google-colaboratory


    【解决方案1】:

    你没有显示任何代码,所以我只能想象问题可能是什么:

    也许模型历史会随着每个时期的增长而增长,并达到它吸收所有 RAM 的地步。

    我不知道不保存model.fit的输出是否解决了问题(我什至不知道你是否正在这样做)。

    解决此问题的方法之一是使用函数save_model 保存模型,然后重新启动会话并从加载的模型开始训练,而不是从零开始。

    来源:

    https://www.tensorflow.org/guide/keras/save_and_serialize

    【讨论】:

      猜你喜欢
      • 2019-10-19
      • 1970-01-01
      • 2016-08-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多