【问题标题】:Unable to install NVIDIA driver on various GCP Ubuntu VM's with Tesla K80 GPU无法在带有 Tesla K80 GPU 的各种 GCP Ubuntu VM 上安装 NVIDIA 驱动程序
【发布时间】:2021-12-29 13:34:45
【问题描述】:
【问题讨论】:
标签:
google-cloud-platform
gpu
nvidia
【解决方案1】:
如果您已经安装了很多次驱动程序,但nvidia-smi 仍然无法通信,请查看prime-select。
-
运行prime-select query,这样您将获得所有可能的选项,它应该至少显示nvidia | intel。
-
选择prime-select nvidia。
-
然后,如果您看到nvidia is already selected,请选择一个不同的,例如prime-select intel。接下来切换回nvidiaprime-select nvidia
-
重启并检查nvidia-smi。
另外,再次运行可能是个好主意:
sudo apt install nvidia-cuda-toolkit
完成后,重新启动机器,然后 nvidia-smi 应该可以工作了。
现在,在其他情况下,可以按照这些说明在 VM cuda_11.2_installation_on_Ubuntu_20.04 上安装 CuDNn 和 Cuda。
最后,在其他一些情况下,它是由无人值守升级引起的。如果导致意外结果,请查看设置并调整它们。该 URL 包含 Debian 的文档,我可以看到您已经使用该发行版 UnattendedUpgrades 进行了测试。
【解决方案2】:
我能够让它工作。我犯的错误是在运行 cuda_10.1.243_418.87.00_linux.run 脚本之前没有执行预安装步骤。我的印象是 *.run 文件会为我做所有事情。如果用户被告知他们必须执行预安装步骤,这将有所帮助。具体来说,我必须为 Ubuntu 18 执行此操作:
sudo nano /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u
reboot
这似乎有点“黑客”,所以不知道为什么 nvidia 不能使安装过程更健壮?他们制作了大量这些卡片。这不像是一些拥有小众用户群的自制产品……