【发布时间】:2021-12-28 02:56:45
【问题描述】:
我们有一个部署在 k8s 上的烧瓶应用。该应用程序的基本映像是这样的:https://hub.docker.com/r/tiangolo/uwsgi-nginx-flask/,我们在此基础上构建我们的应用程序。我们将 docker 镜像发送到 ECR,然后在 k8s 上部署 pod。
我们想开始在我们的 k8s 节点中运行 ML 模型。底层节点有 GPU(我们使用的是 g4dn 实例),它们使用的是 GPU AMI。
运行我们的应用时,我看到以下错误:
/usr/local/lib/python3.8/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from http://www.nvidia.com/Download/index.aspx (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:100.)
return torch._C._cuda_getDeviceCount() > 0
在我们的节点上安装 CUDA 的正确方法是什么?我原以为它会内置到与 gpu 实例一起提供的 AMI 中,但事实并非如此。
【问题讨论】:
标签: amazon-web-services machine-learning kubernetes amazon-ec2