【发布时间】:2021-12-24 21:08:03
【问题描述】:
我目前正在尝试在 AWS Sagemaker 上使用 pytorch 训练模型,但无法使其正常运行。我现在的主要问题是:我缺少一些工作流程步骤吗?非常感谢任何帮助。
我设法让代码在 colab 或本地机器上运行,例如在 sagemaker 上运行。
简而言之,程序应该:设置 pytorch 模型,从文件系统加载训练数据并执行训练 epoch。
为此,我正在尝试以下方法: 带有“入口点”的代码文件(数据加载器/帮助函数等)存储在 Sagemaker Studio 的“代码”文件夹中。
训练文件存储在 s3 存储桶中,并以“文件模式”传输。
然后我在 python 笔记本中调用估算器,如下所示:
estimator = PyTorch(entry_point='entry.py',
role=role,
py_version='py3',
source_dir = "code",
output_path = "s3://XXXXX/XXXXXX/XXXX",
framework_version='1.3.1',
instance_count=1,
instance_type='ml.g4dn.2xlarge',
hyperparameters={
'epochs': 5,
'backend': 'gloo'
})
inputs = "s3://XXXXX/XXXXX"
estimator.fit({'training': inputs})
在输出中我可以看到,火车实例已准备好并已下载数据,但随后出现问题:
由于某种原因,程序直接跳转到 train 方法。应该在训练阶段之前发生的第一步的输出,例如网络白化,在训练步骤之后或期间显示。在一个训练周期后,程序冻结,没有任何错误消息,直到我手动停止实例。
感谢您的帮助。
【问题讨论】:
标签: amazon-web-services pytorch amazon-sagemaker