【发布时间】:2012-10-14 18:59:04
【问题描述】:
情况
我有一个 2 gpu 服务器(Ubuntu 12.04),我在其中将 Tesla C1060 与 GTX 670 切换。比我在 4.2 上安装了 CUDA 5.0。之后,我为 simpleMPI 编译了所有示例 execpt,没有错误。但是当我运行./devicequery 时,我收到以下错误消息:
foo@bar-serv2:~/NVIDIA_CUDA-5.0_Samples/bin/linux/release$ ./deviceQuery
./deviceQuery Starting...
CUDA Device Query (Runtime API) version (CUDART static linking)
cudaGetDeviceCount returned 38
-> no CUDA-capable device is detected
我的尝试
为了解决这个问题,我尝试了CUDA-capable device 推荐的所有想法,但无济于事:
-
/dev/nvidia*在那里并且权限是 666 (crw-rw-rw-) 和所有者 root:rootfoo@bar-serv2:/dev$ ls -l nvidia* crw-rw-rw- 1 root root 195, 0 Oct 24 18:51 nvidia0 crw-rw-rw- 1 root root 195, 1 Oct 24 18:51 nvidia1 crw-rw-rw- 1 root root 195, 255 Oct 24 18:50 nvidiactl 我尝试使用 sudo 执行代码
CUDA 5.0 同时安装驱动和库
PS 这里是 lspci | grep -i 英伟达:
foo@bar-serv2:/dev$ lspci | grep -i nvidia
03:00.0 VGA compatible controller: NVIDIA Corporation GK104 [GeForce GTX 670] (rev a1)
03:00.1 Audio device: NVIDIA Corporation GK104 HDMI Audio Controller (rev a1)
04:00.0 VGA compatible controller: NVIDIA Corporation G94 [Quadro FX 1800] (rev a1)
[更新]
foo@bar-serv2:~/NVIDIA_CUDA-5.0_Samples/bin/linux/release$ nvidia-smi -a
NVIDIA: API mismatch: the NVIDIA kernel module has version 295.59,
but this NVIDIA driver component has version 304.54. Please make
sure that the kernel module and all NVIDIA driver components
have the same version.
Failed to initialize NVML: Unknown Error
如果我使用 CUDA 5.0 安装程序同时安装驱动程序和库,那怎么可能。旧的 4.2 版本会不会乱七八糟?
【问题讨论】:
-
如果你运行 nvidia-smi -a 会发生什么?
-
@RobertCrovella,感谢您的意见。我试过了,它给出了一个错误。顺便说一句:你从哪里知道这个工具的?
-
请说明您标记关闭的原因。谢谢!
-
没有将 Ubuntu 12.04 列为支持的 CUDA 5.0 软件包。您可以查看release notes 以获取支持的操作系统列表。有关您的系统配置的某些内容妨碍了成功的驱动程序升级。您可能想查看nvidia driver readme 尤其是第 8 节或在线搜索有关在 ubuntu 上安装驱动程序失败的文章。
-
您的内核驱动模块已过期。如果驱动程序安装期间出现的内核源与正在运行的内核不匹配,如果在安装 Nvidia 驱动程序后更新内核,或者根本没有安装驱动程序,通常会发生这种情况。检查您安装的最新内核源是否与正在运行的内核匹配并再次运行驱动程序安装。