【问题标题】:Accelerate BERT training with HuggingFace Model Parallelism使用 HuggingFace 模型并行加速 BERT 训练
【发布时间】:2022-11-08 09:12:31
【问题描述】:

我目前正在使用 SageMaker 来训练 BERT,并试图提高 BERT 的训练时间。我在 AWS g4dn.12xlarge 实例类型上使用 PyTorch 和 Huggingface。

然而,当我进行并行训练时,它远未实现线性改进。我正在寻找有关分布式训练的一些提示,以改善 SageMaker 中的 BERT 训练时间。

【问题讨论】:

    标签: pytorch amazon-sagemaker huggingface-transformers bert-language-model distributed-training


    【解决方案1】:

    您可以使用 SageMaker 分布式数据并行 (SMDDP) 在多节点和多 GPU 设置上运行训练。有关基于 BERT 的训练示例,请参阅以下链接

    https://github.com/aws/amazon-sagemaker-examples/blob/main/training/distributed_training/pytorch/data_parallel/bert/pytorch_smdataparallel_bert_demo.ipynb

    这是 HuggingFace - https://github.com/aruncs2005/pytorch-ddp-sm-example

    请参阅此处的文档以获取分步说明。

    https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-modify-sdp-pt.html

    【讨论】:

      猜你喜欢
      • 2020-12-08
      • 2020-09-29
      • 2021-09-23
      • 2021-10-22
      • 1970-01-01
      • 2022-01-01
      • 1970-01-01
      • 2020-12-15
      • 2021-01-08
      相关资源
      最近更新 更多