【发布时间】:2021-07-30 20:33:59
【问题描述】:
我有一个包含两个节点池的 EKS 集群。一个 CPU 通用计算,另一个支持 GPU (g4dn)。我想在 GPU 节点组上安装 nvidia 驱动程序。我现在能做的最好的事情就是手动 ssh 到每个节点上并安装。有没有更好的方法来实现这一点?
【问题讨论】:
标签: amazon-web-services gpu devops nvidia amazon-eks
我有一个包含两个节点池的 EKS 集群。一个 CPU 通用计算,另一个支持 GPU (g4dn)。我想在 GPU 节点组上安装 nvidia 驱动程序。我现在能做的最好的事情就是手动 ssh 到每个节点上并安装。有没有更好的方法来实现这一点?
【问题讨论】:
标签: amazon-web-services gpu devops nvidia amazon-eks
如果您不想在节点上手动安装 GPU 驱动程序,则必须使用名为 (packer)[https://www.packer.io] 的工具,它可以帮助您烘焙自定义 EKS ami .
在您的打包程序配置中,您必须添加安装 GPU 驱动程序的步骤。
然后,您可以在您的 EKS 集群中使用该自定义 ami,该集群将为您预先安装驱动程序。
AWS 对此的资源很少。请参阅下面的链接
https://github.com/awslabs/amazon-eks-ami
https://aws.amazon.com/premiumsupport/knowledge-center/eks-custom-linux-ami/
【讨论】:
这取决于您管理 EKS 集群的方式。
推荐的工具之一是eksctl,它为GPU node group带来了开箱即用的支持
【讨论】: