为特定于上下文的嵌入微调 BERT 模型答案

【问题标题】：Fine-tune a BERT model for context specific embeddigns为特定于上下文的嵌入微调 BERT 模型
【发布时间】：2021-04-17 09:41:54
【问题描述】：

我正在尝试查找有关如何训练 BERT 模型的信息，可能来自 Huggingface Transformers 库，以便它输出的嵌入与我正在使用的文本的上下文更密切相关。

但是，我能找到的所有示例都是关于为其他任务微调模型，例如 classification。

有没有人碰巧有一个 BERT 微调模型的示例，用于屏蔽标记或下一句预测，该模型输出另一个针对上下文进行微调的原始 BERT 模型？

谢谢！

【问题讨论】：

您可以为掩蔽语言模型微调 BERT，这是一种无监督的系统微调方式。 huggingface.co/transformers/model_doc/bert.html#bertformaskedlm

标签： python nlp bert-language-model

【解决方案1】：

这是来自Fine tuning a language model for masked token prediction 上的 Transformers 库的示例。

使用的模型是 BERTForLM 系列之一。这个想法是使用TextDataset 创建一个数据集，将文本标记化并分解成块。然后在训练时使用DataCollatorForLanguageModeling随机屏蔽chunks中的token，并将模型、数据和collator传递给Trainer进行训练和评估结果。

【讨论】：