【问题标题】:GKE - GPU nvidia - cuda drivers dont workGKE - GPU nvidia - cuda 驱动程序不起作用
【发布时间】:2020-03-05 01:17:03
【问题描述】:

我已经用 nvidia tesla k80 设置了一个 kubernetes 节点,并按照this tutorial 尝试运行一个 pytorch docker 映像,其中 nvidia 驱动程序和 cuda 驱动程序工作。

我已经成功安装了 nvidia daemonsets,我现在可以看到以下 pod:

nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84

问题是即使在使用推荐图像nvidia/cuda:10.0-runtime-ubuntu18.04 时,我仍然无法在我的 pod 中找到 nvidia 驱动程序:

root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin  cuda  cuda-10.0  etc  games  include  lib  man  sbin  share  src

但教程中提到:

CUDA 库和调试实用程序在容器内分别位于 /usr/local/nvidia/lib64/usr/local/nvidia/bin

我还尝试测试 cuda 是否通过 torch.cuda.is_available() 工作,但我得到 False 作为返回值。

提前为您提供许多帮助

【问题讨论】:

标签: gpu pytorch google-kubernetes-engine nvidia


【解决方案1】:

好的,所以我终于让 nvidia 驱动程序工作了。

必须设置资源限制才能访问 nvidia 驱动程序,考虑到我的 pod 位于安装了 nvidia 驱动程序的正确节点上,这很奇怪..

这使得 nvidia 文件夹可以访问,但我仍然无法使 cuda 安装与 pytorch 1.3.0 一起工作 .. [issue here]

【讨论】:

  • 哇。是的。就是这样。谢谢!
猜你喜欢
  • 2011-09-05
  • 2021-03-23
  • 1970-01-01
  • 2012-05-03
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多