【问题标题】:Fine-tune BERT for a specific domain on a different language?针对不同语言的特定域微调 BERT?
【发布时间】:2021-01-27 20:40:45
【问题描述】:

我想对预训练的 BERT 模型进行微调。 但是,我的任务使用特定域内的数据(比如生物医学数据)。 此外,我的数据也使用不同于英语的语言(比如荷兰语)。

现在我可以微调 Dutch bert-base-dutch-cased 预训练模型。 但是,我将如何对 BioBERT 等生物医学 BERT 模型进行微调, 哪个域正确,但语言错误?

我曾考虑过使用 NMT,但认为它不可行且不值得付出努力。 如果我在不改变模型的情况下进行微调,我担心模型无法很好地学习任务 因为它是用完全不同的语言进行预训练的。

【问题讨论】:

  • BIo-BERT 有多语言版本吗?
  • @AshwinGeetD'Sa BioBERT 在这里仅用作示例。我只是想知道是否有任何方法可以微调预训练的 BERT 模型(在特定领域训练,如生物医学数据或任何其他专业领域)并将其用于同一领域内的数据,但不同语言。很抱歉不清楚。

标签: python-3.x deep-learning nlp bert-language-model


【解决方案1】:

我只是想知道是否有任何方法可以微调在特定域上训练的预训练 BERT 模型,并将其用于同一域中的数据,但使用不同的语言

可能不会。 BERT 的词汇在预训练开始时是固定的,并添加了额外的词汇leads to random weight initializations

相反,我会:

  1. 如 @Ashwin 所说,寻找多语言、特定领域的 BERT 版本。
  2. 根据您的任务微调荷兰语 BERT,看看性能是否可以接受。总的来说,BERT 可以很好地适应不同的任务。
  3. (如果您有可用资源)继续在您的特定域(例如,SciBERT)上预训练荷兰语 BERT,然后微调您的任务。

【讨论】:

    猜你喜欢
    • 2021-02-19
    • 2020-03-29
    • 1970-01-01
    • 2019-01-05
    • 2020-06-10
    • 2011-11-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多