【问题标题】:Size of the training data of GPT2-XL pre-trained modelGPT2-XL预训练模型的训练数据大小
【发布时间】:2020-05-27 03:26:07
【问题描述】:

huggingface transformer 中,可以使用预训练的 GPT2-XL 语言模型。但我没有找到,它是在哪个数据集上训练的?与 OpenAI 用于他们的 paper 的训练模型相同(在名为 webtext 的 40GB 数据集上训练)?

【问题讨论】:

    标签: pytorch language-model huggingface-transformers


    【解决方案1】:

    GPT2-XL 模型是您链接的论文中详述的四种架构中最大的一种(1542M 参数)。它使用与其他三个相同的数据进行训练,也就是您提到的 WebText。

    【讨论】:

      猜你喜欢
      • 2017-08-19
      • 2021-03-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-05-01
      • 2023-02-02
      • 2020-05-21
      • 2023-01-03
      相关资源
      最近更新 更多