Detectron2 分割训练：在 GPU 上训练 Detectron2 mask-rcnn 模型时内存不足答案

【问题标题】：Detectron2 Segmentation training : out of memory while training the Detectron2 mask-rcnn model on GPUDetectron2 分割训练：在 GPU 上训练 Detectron2 mask-rcnn 模型时内存不足
【发布时间】：2022-06-23 12:44:22
【问题描述】：

我尝试了几乎所有训练模型的选项，包括将批量大小减少到 1 以及此处描述的其他一些步骤 How do I select which GPU to run a job on?, 但我仍然得到错误运行时错误：CUDA 内存不足。尝试分配 238.00 MiB（GPU 3；15.90 GiB 总容量；15.20 GiB 已分配；1.88 MiB 空闲；9.25 MiB 缓存）这是笔记本，在带有 N24-GPU 的 Azure ML 工作区中配置

谢谢

【问题讨论】：

标签： pytorch

【解决方案1】：

在开始训练之前检查您的内存使用情况，有时detectron2 不会在使用后释放 vram，尤其是在训练崩溃时。如果是这种情况，短期内解决问题的最简单方法是重新启动。

至于这个问题的长期解决方案，除了确保您使用所有内容的最新版本之外，我无法提供任何建议。

【讨论】：