【问题标题】:AWS SageMaker on GPUGPU 上的 AWS SageMaker
【发布时间】:2021-08-24 17:34:26
【问题描述】:

我正在尝试在 AWS 上训练神经网络 (Tensorflow)。我有一些 AWS 积分。据我了解,AWS SageMaker 最适合这项工作。我设法在 SageMaker 上加载了 Jupyter Lab 控制台并试图找到一个 GPU 内核,因为我知道它是训练神经网络的最佳选择。但是,我找不到这样的内核。

有人能在这方面提供帮助吗?

感谢和最好的问候

迈克尔

【问题讨论】:

  • 当你创建一个新的jupyter notebook实例时,你必须选择你想使用哪台机器,此时你必须指定gpu实例。在这里查看 gpu 实例类型:aws.amazon.com/sagemaker/pricing/instance-types 您可以做的其他事情是启动一个非 gpu jupyter notebook 实例并编写您的代码,然后在创建训练作业时,传递您的作业所需的什么 gpu 实例。

标签: amazon-web-services tensorflow amazon-sagemaker


【解决方案1】:

您通过 2 个不同的组件在 SageMaker 生态系统中的 GPU 上训练模型:

  1. 您可以实例化 GPU 驱动的 SageMaker Notebook Instance,例如 p2.xlarge (NVIDIA K80) 或 p3.2xlarge (NVIDIA V100)。这对于交互式开发很方便——你的笔记本下面有 GPU,可以在 GPU 上交互式运行代码,并通过终端选项卡中的nvidia-smi 监控 GPU——很棒的开发体验。但是,当您直接从 GPU 驱动的机器进行开发时,有时您可能不会使用 GPU。例如,当您编写代码或浏览一些文档时。一直以来,您都在为闲置的 GPU 付费。在这方面,它可能不是您的用例最具成本效益的选择。

  2. 另一种选择是使用在 GPU 实例上运行的 SageMaker Training Job。这是训练的首选选项,因为训练元数据(数据和模型路径、超参数、集群规范等)保存在 SageMaker 元数据存储中,日志和指标存储在 Cloudwatch 中,并且实例在训练结束时自动关闭.在小型 CPU 实例上开发并使用 SageMaker Training API 启动训练任务将帮助您充分利用预算,同时帮助您保留所有实验的元数据和工件。可以看here a well documented TensorFlow example

【讨论】:

    【解决方案2】:

    所有笔记本 GPU 和 CPU 实例类型:AWS Documentation

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-05-25
      • 1970-01-01
      • 2021-01-18
      • 2023-04-05
      • 1970-01-01
      • 2021-01-23
      • 1970-01-01
      • 2019-11-16
      相关资源
      最近更新 更多