为 K8S 上的应用程序安装 NVIDIA 驱动程序答案

【问题标题】：Installing NVIDIA drivers for application on K8S为 K8S 上的应用程序安装 NVIDIA 驱动程序
【发布时间】：2021-12-28 02:56:45
【问题描述】：

我们有一个部署在 k8s 上的烧瓶应用。该应用程序的基本映像是这样的：https://hub.docker.com/r/tiangolo/uwsgi-nginx-flask/，我们在此基础上构建我们的应用程序。我们将 docker 镜像发送到 ECR，然后在 k8s 上部署 pod。

我们想开始在我们的 k8s 节点中运行 ML 模型。底层节点有 GPU（我们使用的是 g4dn 实例），它们使用的是 GPU AMI。

运行我们的应用时，我看到以下错误：

/usr/local/lib/python3.8/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from http://www.nvidia.com/Download/index.aspx (Triggered internally at  /pytorch/c10/cuda/CUDAFunctions.cpp:100.)
  return torch._C._cuda_getDeviceCount() > 0

在我们的节点上安装 CUDA 的正确方法是什么？我原以为它会内置到与 gpu 实例一起提供的 AMI 中，但事实并非如此。

【问题讨论】：

标签： amazon-web-services machine-learning kubernetes amazon-ec2

【解决方案1】：

有几个选项：

使用tensorflow:latest-gpu 作为基本映像并为您的系统设置其他配置。
Setup Cuda drivers你自己在你的 Docker 镜像中。

【讨论】：