【发布时间】:2020-03-05 01:17:03
【问题描述】:
我已经用 nvidia tesla k80 设置了一个 kubernetes 节点,并按照this tutorial 尝试运行一个 pytorch docker 映像,其中 nvidia 驱动程序和 cuda 驱动程序工作。
我已经成功安装了 nvidia daemonsets,我现在可以看到以下 pod:
nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84
问题是即使在使用推荐图像nvidia/cuda:10.0-runtime-ubuntu18.04 时,我仍然无法在我的 pod 中找到 nvidia 驱动程序:
root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin cuda cuda-10.0 etc games include lib man sbin share src
但教程中提到:
CUDA 库和调试实用程序在容器内分别位于
/usr/local/nvidia/lib64和/usr/local/nvidia/bin。
我还尝试测试 cuda 是否通过 torch.cuda.is_available() 工作,但我得到 False 作为返回值。
提前为您提供许多帮助
【问题讨论】:
-
我投票结束这个问题,因为它是devops.stackexchange.com/q/9738/210的精确副本
标签: gpu pytorch google-kubernetes-engine nvidia