【问题标题】:AWS Sagemaker Pytorch does not run properlyAWS Sagemaker Pytorch 无法正常运行
【发布时间】:2021-12-24 21:08:03
【问题描述】:

我目前正在尝试在 AWS Sagemaker 上使用 pytorch 训练模型,但无法使其正常运行。我现在的主要问题是:我缺少一些工作流程步骤吗?非常感谢任何帮助。

我设法让代码在 colab 或本地机器上运行,例如在 sagemaker 上运行。

简而言之,程序应该:设置 pytorch 模型,从文件系统加载训练数据并执行训练 epoch。

为此,我正在尝试以下方法: 带有“入口点”的代码文件(数据加载器/帮助函数等)存储在 Sagemaker Studio 的“代码”文件夹中。

enter image description here

训练文件存储在 s3 存储桶中,并以“文件模式”传输。

然后我在 python 笔记本中调用估算器,如下所示:

estimator = PyTorch(entry_point='entry.py',
                    role=role,
                    py_version='py3',
                    source_dir = "code",
                    output_path = "s3://XXXXX/XXXXXX/XXXX",
                    framework_version='1.3.1',
                    instance_count=1,
                    instance_type='ml.g4dn.2xlarge',
                    hyperparameters={
                        'epochs': 5,
                        'backend': 'gloo'
                    })

inputs = "s3://XXXXX/XXXXX"
estimator.fit({'training': inputs})

在输出中我可以看到,火车实例已准备好并已下载数据,但随后出现问题:

由于某种原因,程序直接跳转到 train 方法。应该在训练阶段之前发生的第一步的输出,例如网络白化,在训练步骤之后或期间显示。在一个训练周期后,程序冻结,没有任何错误消息,直到我手动停止实例。

感谢您的帮助。

【问题讨论】:

    标签: amazon-web-services pytorch amazon-sagemaker


    【解决方案1】:

    您的脚本在一个 epoch 后卡住了。
    没有要查看的错误消息,也没有代码本身。
    我建议尝试使用SageMaker Local mode(例如instance_type='local_gpu')快速解决此问题。这将允许您在几秒钟而不是几分钟内重试不同的配置。并且可能是remote debug它。

    注意:SageMaker 本地需要 docker 支持,因此您需要在笔记本电脑上或在 SageMaker 笔记本实例(如“ml.g4dn.2xlarge”)上运行它,而不是在 SageMaker Studio 实例上)。并且可能是remote debug它。

    【讨论】:

    • 感谢 Gili 的回答,事实证明,脚本并没有被卡住,而是在实际运行。由于某种原因,控制台或 CloudWatch 中的训练日志仅在训练作业完成后才会出现,我仍然不明白。但代码运行正常。再次感谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-01-09
    • 1970-01-01
    • 1970-01-01
    • 2021-04-22
    • 2015-12-08
    • 2019-02-08
    • 1970-01-01
    相关资源
    最近更新 更多