AWS Sagemaker Pytorch 无法正常运行答案

【问题标题】：AWS Sagemaker Pytorch does not run properlyAWS Sagemaker Pytorch 无法正常运行
【发布时间】：2021-12-24 21:08:03
【问题描述】：

我目前正在尝试在 AWS Sagemaker 上使用 pytorch 训练模型，但无法使其正常运行。我现在的主要问题是：我缺少一些工作流程步骤吗？非常感谢任何帮助。

我设法让代码在 colab 或本地机器上运行，例如在 sagemaker 上运行。

简而言之，程序应该：设置 pytorch 模型，从文件系统加载训练数据并执行训练 epoch。

为此，我正在尝试以下方法：带有“入口点”的代码文件（数据加载器/帮助函数等）存储在 Sagemaker Studio 的“代码”文件夹中。

enter image description here

训练文件存储在 s3 存储桶中，并以“文件模式”传输。

然后我在 python 笔记本中调用估算器，如下所示：

estimator = PyTorch(entry_point='entry.py',
                    role=role,
                    py_version='py3',
                    source_dir = "code",
                    output_path = "s3://XXXXX/XXXXXX/XXXX",
                    framework_version='1.3.1',
                    instance_count=1,
                    instance_type='ml.g4dn.2xlarge',
                    hyperparameters={
                        'epochs': 5,
                        'backend': 'gloo'
                    })

inputs = "s3://XXXXX/XXXXX"
estimator.fit({'training': inputs})

在输出中我可以看到，火车实例已准备好并已下载数据，但随后出现问题：

由于某种原因，程序直接跳转到 train 方法。应该在训练阶段之前发生的第一步的输出，例如网络白化，在训练步骤之后或期间显示。在一个训练周期后，程序冻结，没有任何错误消息，直到我手动停止实例。

感谢您的帮助。

【问题讨论】：

标签： amazon-web-services pytorch amazon-sagemaker

【解决方案1】：

您的脚本在一个 epoch 后卡住了。
没有要查看的错误消息，也没有代码本身。
我建议尝试使用SageMaker Local mode（例如instance_type='local_gpu'）快速解决此问题。这将允许您在几秒钟而不是几分钟内重试不同的配置。并且可能是remote debug它。

注意：SageMaker 本地需要 docker 支持，因此您需要在笔记本电脑上或在 SageMaker 笔记本实例（如“ml.g4dn.2xlarge”）上运行它，而不是在 SageMaker Studio 实例上）。并且可能是remote debug它。

【讨论】：

感谢 Gili 的回答，事实证明，脚本并没有被卡住，而是在实际运行。由于某种原因，控制台或 CloudWatch 中的训练日志仅在训练作业完成后才会出现，我仍然不明白。但代码运行正常。再次感谢。