该情况通常发生在非正常中断GPU下发生,如手动暂停了训练。然后发现,再一次训练的时候出现错误:

RuntimeError: CUDA out of memory. Tried to allocate 736.00 MiB (GPU 0; 10.92 GiB total capacity; 2.26 GiB already allocated; 412.38 MiB free; 2.27 GiB reserved in total by PyTorch)

在终端查看GPU使用情况:

深度学习训练已经停止了,可GPU内存还在占用着,怎么办?

哎,GPU真的一直在占用着,必须关掉它

-----------------------------方法---------------------------

1. 查看GPU进程ID

1.1 通过nvidia-smi查看, PID号就是进程号,我这里是1297

深度学习训练已经停止了,可GPU内存还在占用着,怎么办?

1.2 如果上述办法看不到PID,输入  fuser -v /dev/nvidia*   查看

深度学习训练已经停止了,可GPU内存还在占用着,怎么办?

2. 杀死进程  kill -9 PID

深度学习训练已经停止了,可GPU内存还在占用着,怎么办?

就恢复了。

 

 

 

相关文章:

  • 2021-12-19
  • 2021-07-04
  • 2021-11-27
  • 2021-11-26
  • 2021-09-07
  • 2021-11-29
猜你喜欢
  • 2022-01-05
  • 2021-09-02
  • 2021-07-19
  • 2022-12-23
  • 2021-09-02
  • 2022-12-23
  • 2021-06-06
相关资源
相似解决方案