【发布时间】:2022-11-08 09:12:31
【问题描述】:
我目前正在使用 SageMaker 来训练 BERT,并试图提高 BERT 的训练时间。我在 AWS g4dn.12xlarge 实例类型上使用 PyTorch 和 Huggingface。
然而,当我进行并行训练时,它远未实现线性改进。我正在寻找有关分布式训练的一些提示,以改善 SageMaker 中的 BERT 训练时间。
【问题讨论】:
标签: pytorch amazon-sagemaker huggingface-transformers bert-language-model distributed-training