【发布时间】:2020-10-24 22:48:01
【问题描述】:
我有一个问题
import torch
print(torch.cuda_is_available())
将打印 False,我无法使用可用的 GPU。我已经在conda 环境中尝试过,我已经安装了与我拥有的 NVIDIA 驱动程序相对应的 PyTorch 版本。我也在 docker 容器中尝试过,我也做过同样的事情。我已经在远程服务器上尝试了这两个选项,但都失败了。我知道我已经安装了正确的驱动程序版本,因为我在安装 PyTorch 之前使用nvcc --version 检查了版本,并且我使用nvidia-smi 检查了 GPU 连接,它正确显示了机器上的 GPU。
另外,我检查了this 的帖子并尝试导出CUDA_VISIBLE_DEVICES,但没有成功。
在服务器上,我在我构建的 docker 容器上安装了 CUDA 版本 10.0(用于 conda 环境)和版本 10.2 的 NVIDIA V100 GPU。任何帮助或朝着正确的方向推动将不胜感激。谢谢!
【问题讨论】:
-
您尝试使用哪个版本的 PyTorch?你的
nvidia-smi输出是什么? -
@Berriel
nvidia-smi输出太长,这里不写。它基本上是 8 个 NVIDIA V100 GPU,从 #0 到 #7。我认为您会在其他nvidia-smi输出上看到的正常内容。对于带有 CUDA 10.0 的 conda 环境,它说torch.__version__是1.4.0,对于带有 CUDA 10.2 的 docker 容器,它说torch.__version__是1.5.0a0+8f84ded... 我假设那是1.5.0 -
nvidia-smi的相关部分基本上是标题 :) nvidia 驱动程序版本。如果驱动程序兼容,它应该可以工作。顺便说一句,docker 的 cuda 版本或您的系统有点无关紧要,因为 PyTorch 是通过自己的 cuda 交付的。 -
@Berriel 他们都说驱动程序版本 410.129 和 CUDA 版本 10.0。只是出于好奇,如果我的 CUDA 版本无关紧要,当我从pytorch.org 之类的地方获取下载链接时,为什么我必须选择我正在使用的 CUDA 版本?
-
是的 10.2 不适用于该驱动程序版本,但您的 conda env 应该可以工作。尝试为 9.2 安装 PyTorch,以防万一。考虑要求 sudo 用户(如果您不是)也更新驱动程序。这些 V100 可以从更新的 cuda 版本中受益。