GPT2-XL预训练模型的训练数据大小

【问题标题】：Size of the training data of GPT2-XL pre-trained modelGPT2-XL预训练模型的训练数据大小
【发布时间】：2020-05-27 03:26:07
【问题描述】：

在huggingface transformer 中，可以使用预训练的 GPT2-XL 语言模型。但我没有找到，它是在哪个数据集上训练的？与 OpenAI 用于他们的 paper 的训练模型相同（在名为 webtext 的 40GB 数据集上训练）？

【问题讨论】：

【解决方案1】：

GPT2-XL 模型是您链接的论文中详述的四种架构中最大的一种（1542M 参数）。它使用与其他三个相同的数据进行训练，也就是您提到的 WebText。

【讨论】：