【问题标题】:Installing NVIDIA drivers for application on K8S为 K8S 上的应用程序安装 NVIDIA 驱动程序
【发布时间】:2021-12-28 02:56:45
【问题描述】:

我们有一个部署在 k8s 上的烧瓶应用。该应用程序的基本映像是这样的:https://hub.docker.com/r/tiangolo/uwsgi-nginx-flask/,我们在此基础上构建我们的应用程序。我们将 docker 镜像发送到 ECR,然后在 k8s 上部署 pod。

我们想开始在我们的 k8s 节点中运行 ML 模型。底层节点有 GPU(我们使用的是 g4dn 实例),它们使用的是 GPU AMI。

运行我们的应用时,我看到以下错误:

/usr/local/lib/python3.8/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from http://www.nvidia.com/Download/index.aspx (Triggered internally at  /pytorch/c10/cuda/CUDAFunctions.cpp:100.)
  return torch._C._cuda_getDeviceCount() > 0

在我们的节点上安装 CUDA 的正确方法是什么?我原以为它会内置到与 gpu 实例一起提供的 AMI 中,但事实并非如此。

【问题讨论】:

    标签: amazon-web-services machine-learning kubernetes amazon-ec2


    【解决方案1】:

    有几个选项:

    1. 使用tensorflow:latest-gpu 作为基本映像并为您的系统设置其他配置。
    2. Setup Cuda drivers你自己在你的 Docker 镜像中。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-23
      • 2012-05-09
      • 1970-01-01
      相关资源
      最近更新 更多