【发布时间】:2020-04-14 15:21:51
【问题描述】:
我正在从 huggingface 阅读变压器库的文档,我对 BertModel 的前向输出有点困惑。
文档中说明有两个输出(和两个可选输出)是:
- 最后隐藏状态
- 合并输出
在后者的文档中建议:
此输出通常不能很好地概括输入的语义内容,通常最好对整个输入序列的隐藏状态序列进行平均或合并。
所以,在我看来,第一个输出可以更好地表示输入的语义。但是,在BertForSequenceClassification 的代码中,使用了第二个输出并为全连接层提供数据。这是为什么呢?
这是代码的一部分:
pooled_output = outputs[1]
pooled_output = self.dropout(pooled_output)
logits = self.classifier(pooled_output)
【问题讨论】:
标签: python-3.x huggingface-transformers