为什么 Google Colab 只训练第一个 epoch（keras）的 2 个第一步？答案

【问题标题】：Why Google Colab only train the 2 first steps of the first epoch (keras)?为什么 Google Colab 只训练第一个 epoch（keras）的 2 个第一步？
【发布时间】：2020-09-02 10:06:22
【问题描述】：

我有一个 41258 RGB 图像数据集，形状如下：(320, 320, 3)。标签是 42 个 3d 坐标，因此每个图像有 126 个标签。标签形状为 (42, 3)，但已重新调整为 (-1, 126)。标签介于 -1 和 1 之间。图像在 0 和 1 之间进行归一化。

我正在使用带有 GPU 的 Google Colab，这发生了：

Epoch 1/10
  1/103 [..............................] - ETA: 0s - loss: 0.0985 - mae: 0.2258 - mse: 0.0985WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0099s vs `on_train_batch_end` time: 0.0372s). Check your callbacks.
103/103 [==============================] - 4s 39ms/step - loss: 0.0903 - mae: 0.2063 - mse: 0.0903
Epoch 2/10
103/103 [==============================] - 4s 39ms/step - loss: 0.0799 - mae: 0.1872 - mse: 0.0799
Epoch 3/10
103/103 [==============================] - 4s 39ms/step - loss: 0.0800 - mae: 0.1864 - mse: 0.0800
Epoch 4/10
103/103 [==============================] - 4s 39ms/step - loss: 0.0803 - mae: 0.1864 - mse: 0.0803
Epoch 5/10
103/103 [==============================] - 4s 41ms/step - loss: 0.0777 - mae: 0.1807 - mse: 0.0777
Epoch 6/10
103/103 [==============================] - 4s 39ms/step - loss: 0.0774 - mae: 0.1795 - mse: 0.0774
Epoch 7/10
103/103 [==============================] - 4s 40ms/step - loss: 0.0776 - mae: 0.1798 - mse: 0.0776

第一个epoch只有一步，然后重新开始epoch。

我尝试使用CPU，一切正常，只有在我使用GPU时才会发生。

我无法训练所有数据集，所以我分块进行训练，并且必须多次调用 fit。问题总是出现在所有第一个 epoch。

【问题讨论】：

为什么你认为它有一个步骤然后重新启动？您会收到第一个训练样本的警告，这会使输出在下一行继续

标签： python machine-learning keras neural-network conv-neural-network

【解决方案1】：

这不是错误 - 由于警告，这只是输出控制台的微小格式更改。你可以在下面看到

1/103 [..............................] epoch 的其余部分在第二行继续

103/103 [==============================]

然后第二个纪元开始。如果您查看每次宣布 Epoch 的位置，则更容易阅读。我一直看到这个，一开始我也很困惑。

【讨论】：