【问题标题】:Communicate with the NVIDIA driver after kernel update内核更新后与 NVIDIA 驱动程序通信
【发布时间】:2022-06-25 20:19:02
【问题描述】:

我正在运行 Ubuntu 20.04。我更新了内核并重新启动,现在 nvidia-smi 返回:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

内核版本为 5.13.0-35-generic。

nvidia-driver 由我不太熟悉的 DKMS 管理 - 尽管我的印象是它旨在阻止此类问题的发生。

dkms status 返回:

    nvidia, 455.45.01, 5.4.0-58-generic, x86_64: installed
    nvidia, 455.45.01, 5.8.0-36-generic, x86_64: installed
    nvidia, 455.45.01, 5.8.0-38-generic, x86_64: installed

所以看起来当前内核没有条目。

到目前为止,我已经尝试通过运行sudo dpkg-reconfigure nvidia-driver-455 使用当前内核重建 nvidia-driver。这会运行,但不会更改任何内容(包括重新启动后)。

我还尝试使用ls /var/lib/initramfs-tools | sudo xargs -n1 /usr/lib/dkms/dkms_autoinstaller start 为所有已安装内核重建所有 DKMS 模块,如下所示:https://askubuntu.com/questions/53364/command-to-rebuild-all-dkms-modules-for-all-installed-kernels。这将返回以下错误:

Kernel preparation unnecessary for this kernel.  Skipping...
applying patch disable_fstack-clash-protection_fcf-protection.patch...patching file Kbuild
Hunk #1 succeeded at 84 (offset 13 lines).


Building module:
cleaning build area...
unset ARCH; [ ! -h /usr/bin/cc ] && export CC=/usr/bin/gcc; env NV_VERBOSE=1 'make' -j16 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=5.13.0-35-generic IGNOR
E_XEN_PRESENCE=1 IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/5.13.0-35-generic/build LD=/usr/bin/ld.bfd modules.....(bad exit status: 2)
ERROR: Cannot create report: [Errno 17] File exists: '/var/crash/nvidia-dkms-455.0.crash'
Error! Bad return status for module build on kernel: 5.13.0-35-generic (x86_64)
Consult /var/lib/dkms/nvidia/455.45.01/build/make.log for more information.
Module nvidia/455.45.01 already installed on kernel 5.4.0-58-generic/x86_64
Module nvidia/455.45.01 already installed on kernel 5.8.0-36-generic/x86_64
Module nvidia/455.45.01 already installed on kernel 5.8.0-38-generic/x86_64

我认为这个错误可能与unset ARCH 有关,但我不确定那是什么?

最后我尝试了 switch-it-on-and-off-again 等效的 sudo apt-get remove nvidia-driver-455; sudo apt-get install nvidia-driver-455,它运行,但没有解决问题。

任何帮助都会很棒 - 谢谢!

【问题讨论】:

    标签: linux module linux-kernel nvidia dkms


    【解决方案1】:

    我的发行版提供的驱动程序有问题,所以我直接从 nvidia 安装驱动程序,如果在您的机器上启用了安全启动,这有点麻烦。你可以阅读如何做到这一点here。我也面临内核更新后驱动没有加载的问题,所以我写了一个自动安装最新驱动的脚本,你可以找到here。在read me file of the driver 中指出

    如果您升级内核,那么最简单的解决方案是重新安装驱动程序。

    【讨论】:

      【解决方案2】:

      我收到以下错误 “NV_EXCLUDE_BUILD_MODULES=''KERNEL_UNAME=4.19.0-20-amd64 IGNORE_CC_MISMATCH” 在内核版本为 4.XXX 的 debian 10 上安装 NVIDIA vGPU 驱动程序时,我可以通过执行以下操作来修复它: 1安装proxmox 执行此操作后,nvidia 驱动程序错误将更改(检查要配置的 vfio) 之后我重新启动了服务器 2-然后我得到了 pve 标头的错误 所以我下载了导致错误的.deb头文件 3-终于为我修复了错误,但现在我遇到了另一个错误:-) 我也在努力解决这个问题

      【讨论】:

        猜你喜欢
        • 2013-01-17
        • 1970-01-01
        • 2018-11-25
        • 2017-08-16
        • 2023-01-08
        • 2020-08-15
        • 2021-07-08
        • 2018-08-17
        • 2016-04-25
        相关资源
        最近更新 更多