【问题标题】:Detectron2 Segmentation training : out of memory while training the Detectron2 mask-rcnn model on GPUDetectron2 分割训练:在 GPU 上训练 Detectron2 mask-rcnn 模型时内存不足
【发布时间】:2022-06-23 12:44:22
【问题描述】:

我尝试了几乎所有训练模型的选项,包括将批量大小减少到 1 以及此处描述的其他一些步骤 How do I select which GPU to run a job on?, 但我仍然得到错误 运行时错误:CUDA 内存不足。尝试分配 238.00 MiB(GPU 3;15.90 GiB 总容量;15.20 GiB 已分配;1.88 MiB 空闲;9.25 MiB 缓存) 这是笔记本,在带有 N24-GPU 的 Azure ML 工作区中配置

谢谢

【问题讨论】:

    标签: pytorch


    【解决方案1】:

    在开始训练之前检查您的内存使用情况,有时detectron2 不会在使用后释放 vram,尤其是在训练崩溃时。如果是这种情况,短期内解决问题的最简单方法是重新启动。

    至于这个问题的长期解决方案,除了确保您使用所有内容的最新版本之外,我无法提供任何建议。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-10-28
      • 2019-11-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-08-30
      相关资源
      最近更新 更多