【发布时间】:2021-09-15 13:18:24
【问题描述】:
我正在尝试微调 BERT 预训练模型。我正在使用来自tensorflow_datasets 的yelp_polarity_reviews 数据。我已经确定:
- 将预训练的 BERT 模型加载为
KerasLayertensorflow_hub。 - 使用相同的
tokenizer、vocab_file和do_lower_case用于训练原始模型。 - 将数据集转换为
tf.data.Dataset对象并应用map在tf.py_function中包装我的python 函数的函数。 - 我还按照 BERT 的要求提供输入,即
input_word_ids,input_mask和input_type_ids在一个数组中。
在确保上述所有内容都正确实施后,训练模型时过度拟合严重。训练准确率高达约 99%,而验证准确率几乎不超过 50%。
我尝试了不同的optimizers、error functions、learning rates,甚至尝试了高低dropouts,我也尝试过改变火车数据的大小,但毕竟结果是没有更好的。
Here 是显示已执行代码的 colab 笔记本。
任何建议和帮助将不胜感激。
【问题讨论】:
标签: python tensorflow bert-language-model