在 Amazon Sagemaker 中使用 Ground Truth 和 BlazingText 配置训练作业答案

【问题标题】：Configure Training job using Ground Truth and BlazingText in Amazon Sagemaker在 Amazon Sagemaker 中使用 Ground Truth 和 BlazingText 配置训练作业
【发布时间】：2019-01-10 01:17:50
【问题描述】：

我正在尝试使用 Amazon Sagemaker 的控制台在 Amazon Sagemaker 中配置带有 BlazingText 算法的训练作业。我有一个清单文件如下：

{"source":"Text1","GroundtruthTryVideo":2,"GroundtruthTryVideo-metadata": 
{"confidence":0.66,"job-name":"labeling-job/groundtruthtryvideo","class-name":"TrackingToProspecting","human-annotated":"yes","creation-date":"2018-12-27T00:37:23.894062","type":"groundtruth/text-classification"}}
{"source":"Text2","GroundtruthTryVideo":1,"GroundtruthTryVideo-metadata": 
{"confidence":0.66,"job-name":"labeling-job/groundtruthtryvideo","class-name":"FirstDateProspecting","human-annotated":"yes","creation-date":"2018-12-27T00:37:23.894043","type":"groundtruth/text-classification"}}
{"source":"Text3","GroundtruthTryVideo":1,"GroundtruthTryVideo-metadata": 
{"confidence":0.9,"job-name":"labeling-job/groundtruthtryvideo","class-name":"FirstDateProspecting","human-annotated":"yes","creation-date":"2018-12-27T00:38:26.377216","type":"groundtruth/text-classification"}}

当我尝试使用此清单创建训练作业时，结果总是出现问题，我的配置是：

算法来源：

Amazon SageMaker 内置算法 (BlazingText)

频道：

S3 数据类型：ManifestFile
S3 数据分布类型：FullyReplicated
S3 位置：ManifestFile 的路径（在 S3 存储桶中）

我尝试使用augmentedManifestFile 和Pipe 作为输入模式，而不是ManifestFile 和File 输入，但结果相同，我无法成功完成训练作业。

谁能帮我正确配置控制台？谢谢。

【问题讨论】：

选择AugmentedManifestFile时，需要指定2个属性名。你这样做吗？在此示例中，它将是 source 和 GroundtruthTryVideo-metadata。
我尝试使用这两个属性名，但是，我总是遇到同样的麻烦，结果是：
我尝试使用这两个属性名称，但是，我总是遇到同样的问题，结果是：ClientError: Only the supervised text classification mode supports PIPE mode with Augmented Manifest file. 即使我使用的是Pipe 和Supervised 选项。

标签： amazon-sagemaker

【解决方案1】：

我是 AWS 的一名工程师，希望能提供一些额外的帮助。我会回应上面的建议，以检查您的培训作业请求定义中的AttributeNames 参数。我还想提请您注意一些示例，这些示例可能有助于说明此功能的使用。

此 Jupiter 笔记本示例展示了如何使用增强清单来训练对象检测模型。我知道这个用例与您自己的用例略有不同（对象检测与文本分类），但概念相似。 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/ground_truth_labeling_jobs/object_detection_augmented_manifest_training/object_detection_augmented_manifest_training.ipynb
这个完整的、端到端的标记作业示例还包含一些可能有用的增强清单内容。 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/ground_truth_labeling_jobs/object_detection_augmented_manifest_training/object_detection_augmented_manifest_training.ipynb
这篇博文提供了另一个使用增强清单训练模型的示例，并通过 AWS 控制台进行。 https://aws.amazon.com/blogs/machine-learning/easily-train-models-using-datasets-labeled-by-amazon-sagemaker-ground-truth/
最后，关于增强清单的文档也可能很有价值。 https://docs.aws.amazon.com/sagemaker/latest/dg/augmented-manifest.html#augmented-manifest-console

最后，请记住，我们可以通过 https://aws.amazon.com/contact-us/ 联系 AWS。

【讨论】：