深度学习训练已经停止了，可GPU内存还在占用着，怎么办？

该情况通常发生在非正常中断GPU下发生，如手动暂停了训练。然后发现，再一次训练的时候出现错误：

RuntimeError: CUDA out of memory. Tried to allocate 736.00 MiB (GPU 0; 10.92 GiB total capacity; 2.26 GiB already allocated; 412.38 MiB free; 2.27 GiB reserved in total by PyTorch)

在终端查看GPU使用情况：

深度学习训练已经停止了，可GPU内存还在占用着，怎么办？

哎，GPU真的一直在占用着，必须关掉它

-----------------------------方法---------------------------

1. 查看GPU进程ID

1.1 通过nvidia-smi查看， PID号就是进程号，我这里是1297

深度学习训练已经停止了，可GPU内存还在占用着，怎么办？

1.2 如果上述办法看不到PID，输入 fuser -v /dev/nvidia* 查看

深度学习训练已经停止了，可GPU内存还在占用着，怎么办？

2. 杀死进程 kill -9 PID

深度学习训练已经停止了，可GPU内存还在占用着，怎么办？

就恢复了。

相关文章：

2021-12-19
2021-07-04
2021-11-27
2021-11-26
2021-09-07
2021-11-29

猜你喜欢

2022-01-05
2021-09-02
2021-07-19
2022-12-23
2021-09-02
2022-12-23
2021-06-06

相关资源

下载 2023-02-10
下载 2023-04-05
下载 2022-12-25
下载 2023-02-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode