【发布时间】:2021-02-25 05:03:40
【问题描述】:
我需要一些关于在现有 BERT 模型中添加额外单词的帮助。我有两个问题请指导我:
我正在为一个域处理 NER 任务:
BERT 识别为 [UNK] 的单词很少(不确定确切的数字),但模型需要这些实体才能识别。预训练模型在“bert-base-cases”上学习得很好(高达 80%)准确率,同时提供标记数据和微调模型,但直观地说,如果模型识别所有实体,它会学习得更好。
-
是否需要在 vocabs.txt 中添加那些未知实体并再次训练模型?
-
我需要使用 Scratch 中的数据训练 BERT 模型吗?
谢谢...
【问题讨论】:
-
请问您找到解决这个问题的方法了吗
-
@user5520049 是的,我通过在我的域数据集上预训练 BERT 模型并为下游 NER 任务训练域采用的 BERT 模型解决了这个问题。这是github链接:github.com/geo47/MenuNER
标签: bert-language-model named-entity-recognition pre-trained-model