【问题标题】:Fine-tune a BERT model for context specific embeddigns为特定于上下文的嵌入微调 BERT 模型
【发布时间】:2021-04-17 09:41:54
【问题描述】:

我正在尝试查找有关如何训练 BERT 模型的信息,可能来自 Huggingface Transformers 库,以便它输出的嵌入与我正在使用的文本的上下文更密切相关。

但是,我能找到的所有示例都是关于为其他任务微调模型,例如 classification

有没有人碰巧有一个 BERT 微调模型的示例,用于屏蔽标记或下一句预测,该模型输出另一个针对上下文进行微调的原始 BERT 模型?

谢谢!

【问题讨论】:

标签: python nlp bert-language-model


【解决方案1】:

这是来自Fine tuning a language model for masked token prediction 上的 Transformers 库的示例。

使用的模型是 BERTForLM 系列之一。这个想法是使用TextDataset 创建一个数据集,将文本标记化并分解成块。然后在训练时使用DataCollatorForLanguageModeling随机屏蔽chunks中的token,并将模型、数据和collat​​or传递给Trainer进行训练和评估结果。

【讨论】:

    猜你喜欢
    • 2021-01-16
    • 2020-09-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-12-24
    • 2020-06-03
    • 2021-07-22
    • 2021-08-19
    相关资源
    最近更新 更多