在 AWS Sagemaker 中训练多个模型答案

【问题标题】：Training multiple model in AWS Sagemaker在 AWS Sagemaker 中训练多个模型
【发布时间】：2020-06-29 04:13:39
【问题描述】：

我是否可以通过评估模型在 AWS Sagemaker 中训练多个模型是 train.py 脚本以及如何从多个模型中获取多个指标？

任何链接、文档或视频都会很有用。

【问题讨论】：

标签： amazon-web-services amazon-sagemaker

【解决方案1】：

是的，您在 sagemaker 训练脚本中编写的内容（假设您使用的东西可以让您传递自定义代码，例如您自己的容器或框架容器）是灵活的，并且不需要只是一个模型甚至 ML。您绝对可以在单个容器中编写多个模型训练，并通过正则表达式使用 SageMaker 指标捕获来提取所有相关指标，请参阅此处的示例正则表达式和 Sklearn random forest。话虽如此，最好将事物分开并为每个 SageMaker 作业创建一个模型，原因如下：

它允许您分离模型元数据和指标并进行比较他们很容易使用SageMaker metadata service
它允许您为每个型号专门定制硬件并获得更好的经济效益。在 CPU、GPU、RAM 方面，每种型号都有自己的优势
它允许您使用完全相同的容器进行单次训练，但也适用于bayesian hyperparameter search，一种方法可以比常规网格搜索更快、更便宜。

【讨论】：

感谢您的回答！实际上，我的用例需要基于输入的多个模型训练，就像 h2o.ai 一样。因此，我需要多个模型来训练数据集并呈现指标，以便选择和部署最佳模型。
@noswear 您可以使用 SageMaker 管道。它具有条件分支执行，您可以使用它来选择最佳模型