如何在 AWS SageMaker 中加载训练集来构建模型？答案

【问题标题】：How to load a training set in AWS SageMaker to build a model?如何在 AWS SageMaker 中加载训练集来构建模型？
【发布时间】：2018-03-08 08:33:40
【问题描述】：

我对 SageMaker 很陌生。在我第一次交互时，AWS SageMaker 似乎要求您从其笔记本开始。我有一个准备好的训练集。有没有办法绕过设置 Notebook 而只是从上传训练集开始？或者应该通过笔记本来完成。如果有人知道一些适合我上面需要的例子，那就太好了。

【问题讨论】：

标签： amazon-web-services amazon-sagemaker

【解决方案1】：

Amazon SageMaker 是多项服务的组合，每项服务都独立于其他服务。如果您想在熟悉的 Jupyter 环境中开发模型，可以使用笔记本实例。但是如果只是需要训练一个模型，你可以在不打开笔记本实例的情况下使用训练作业。

有几种方法可以启动培训工作：

使用类似于在 Python 代码中开始训练步骤的方式的高级 Python SDK

kmeans.fit(kmeans.record_set(train_set[0]))

这里是python库的链接：https://github.com/aws/sagemaker-python-sdk

使用低级 API 创建训练作业，您可以使用各种 SDK（Java、Python、JavaScript、C#...）或 CLI 来实现。

sagemaker = boto3.client('sagemaker') sagemaker.create_training_job(**create_training_params)

这里是这些选项的文档链接：https://docs.aws.amazon.com/sagemaker/latest/dg/ex1-train-model-create-training-job.html

使用 Spark 界面启动它，使用与创建 MLLib 训练作业类似的界面

val estimator = new KMeansSageMakerEstimator( sagemakerRole = IAMRole(roleArn), trainingInstanceType = "ml.p2.xlarge", trainingInstanceCount = 1, endpointInstanceType = "ml.c4.xlarge", endpointInitialInstanceCount = 1) .setK(10).setFeatureDim(784)

val model = estimator.fit(trainingData)

这里是 spark-sagemaker 库的链接：https://github.com/aws/sagemaker-spark

在 Amazon SageMaker 控制台中使用向导创建训练作业：https://console.aws.amazon.com/sagemaker/home?region=us-east-1#/jobs

请注意，还有一些用于训练模型的选项，可以使用内置算法，例如 K-Means、Linear Learner 或 XGBoost（完整列表请参见此处：https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html）。但您也可以为预烘焙的 Docker 镜像带来自己的模型，例如 TensorFlow (https://docs.aws.amazon.com/sagemaker/latest/dg/tf.html) 或 MXNet (https://docs.aws.amazon.com/sagemaker/latest/dg/mxnet.html)，您自己的 Docker 镜像 (https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html)。

【讨论】：