【发布时间】:2025-11-22 05:20:05
【问题描述】:
我试图在 Google Pro+ 实例上用 300 个 epoch 训练 YOLOv5x6 模型。不幸的是,在运行了近 20 多个小时后,训练在第 250 个 epoch 停止,没有显示任何错误/信息/警告。知道出了什么问题吗?在再次尝试之前,我想知道是什么导致了这个问题。有没有办法从中断的地方继续训练?
GPU:Tesla P100-PCIE-16GB,16280.875MB 运行时形态:标准
【问题讨论】:
我试图在 Google Pro+ 实例上用 300 个 epoch 训练 YOLOv5x6 模型。不幸的是,在运行了近 20 多个小时后,训练在第 250 个 epoch 停止,没有显示任何错误/信息/警告。知道出了什么问题吗?在再次尝试之前,我想知道是什么导致了这个问题。有没有办法从中断的地方继续训练?
GPU:Tesla P100-PCIE-16GB,16280.875MB 运行时形态:标准
【问题讨论】:
Google colab pro+ 仍有24h total runtime on a VM。
您可以尝试的一种方法是保存每次 X 迭代的训练状态并将其上传到 google drive 或其他云服务(或下载到您的本地机器)。
然后,您重新启动笔记本,但正在为训练的最后状态充电。
【讨论】: