【发布时间】:2023-03-13 19:50:01
【问题描述】:
我刚刚读完Transformer 论文和BERT 论文。但无法弄清楚为什么 Transformer 是单向的,而 BERT 是双向的,正如 BERT 论文中提到的那样。由于他们不使用循环网络,因此解释方向并不是那么简单。任何人都可以提供一些线索吗?谢谢。
【问题讨论】:
标签: nlp transformer pre-trained-model bert-language-model
我刚刚读完Transformer 论文和BERT 论文。但无法弄清楚为什么 Transformer 是单向的,而 BERT 是双向的,正如 BERT 论文中提到的那样。由于他们不使用循环网络,因此解释方向并不是那么简单。任何人都可以提供一些线索吗?谢谢。
【问题讨论】:
标签: nlp transformer pre-trained-model bert-language-model
为了澄清,Vaswani 等人的原始 Transformer 模型。是一种编码器-解码器架构。因此,“变压器是单向的”这一说法具有误导性。
事实上,transformer encoder 是双向的,这意味着self-attention 可以同时关注左右两个token。相比之下,decoder 是单向的,因为在一次生成一个令牌时,您不能让解码器关注当前令牌的右侧。 Transformer 解码器通过将标记向右屏蔽来约束自注意力。
BERT 使用 Transformer 编码器架构,因此可以同时关注左右,从而实现“双向性”。
来自 BERT 论文本身:
我们注意到,在文献中双向 Transformer 通常被称为“Transformer 编码器”,而仅左上下文版本被称为“Transformer 解码器”,因为它可用于文本生成。
推荐阅读:this article。
【讨论】: