【发布时间】:2020-08-11 09:00:33
【问题描述】:
(我正在关注thispytorch 关于BERT 词嵌入的教程,在教程中作者访问了BERT 模型的中间层。)
我想要的是使用 HuggingFace 的 Transformers 库访问 TensorFlow2 中 BERT 模型的单个输入标记的最后 4 层,比如说,最后 4 层。因为每一层输出一个长度为 768 的向量,所以最后 4 层的形状为4*768=3072(对于每个标记)。
如何在 TF/keras/TF2 中实现这一点,以获得输入标记的预训练模型的中间层? (稍后我会尝试获取句子中每个token的token,但现在一个token就足够了)。
我正在使用 HuggingFace 的 BERT 模型:
!pip install transformers
from transformers import (TFBertModel, BertTokenizer)
bert_model = TFBertModel.from_pretrained("bert-base-uncased") # Automatically loads the config
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
sentence_marked = "hello"
tokenized_text = bert_tokenizer.tokenize(sentence_marked)
indexed_tokens = bert_tokenizer.convert_tokens_to_ids(tokenized_text)
print (indexed_tokens)
>> prints [7592]
输出是一个令牌 ([7592]),它应该是 BERT 模型的输入。
【问题讨论】:
-
我建议您更改您的标签,因为您提出了有关 PyTorch 的问题并标记了 tensorflow。它具有误导性,对您也无济于事。
-
通过“获取预训练模型的中间层”,我假设您指的是中间层的隐藏状态,对吧?请注意,BERT 会产生上下文令牌表示,因此使用基于仅包含该令牌的输入序列的令牌表示是没有意义的。此外,它使用词片来标记输入,因此一个词可以表示为两个或多个词片标记,因此该词的两个或多个表示向量(需要组合回来以获得该词的一个向量)。
-
@today 是的,我知道 BERT 必须获取句子的上下文才能获得最佳嵌入。但我的问题是如何获得中间层的输出 - BERT 的 12 个层中的每一个都为每个令牌输出一个包含 764 个值的数组,我的问题是如何访问这些值
标签: tensorflow keras tensorflow2.0 huggingface-transformers bert-language-model