针对不同语言的特定域微调 BERT？答案

【问题标题】：Fine-tune BERT for a specific domain on a different language?针对不同语言的特定域微调 BERT？
【发布时间】：2021-01-27 20:40:45
【问题描述】：

我想对预训练的 BERT 模型进行微调。但是，我的任务使用特定域内的数据（比如生物医学数据）。此外，我的数据也使用不同于英语的语言（比如荷兰语）。

现在我可以微调 Dutch bert-base-dutch-cased 预训练模型。但是，我将如何对 BioBERT 等生物医学 BERT 模型进行微调，哪个域正确，但语言错误？

我曾考虑过使用 NMT，但认为它不可行且不值得付出努力。如果我在不改变模型的情况下进行微调，我担心模型无法很好地学习任务因为它是用完全不同的语言进行预训练的。

【问题讨论】：

BIo-BERT 有多语言版本吗？
@AshwinGeetD'Sa BioBERT 在这里仅用作示例。我只是想知道是否有任何方法可以微调预训练的 BERT 模型（在特定领域训练，如生物医学数据或任何其他专业领域）并将其用于同一领域内的数据，但不同语言。很抱歉不清楚。

【解决方案1】：

我只是想知道是否有任何方法可以微调在特定域上训练的预训练 BERT 模型，并将其用于同一域中的数据，但使用不同的语言

可能不会。 BERT 的词汇在预训练开始时是固定的，并添加了额外的词汇leads to random weight initializations。

相反，我会：

【讨论】：