单向变压器 VS 双向 BERT答案

【问题标题】：Uni-directional Transformer VS Bi-directional BERT单向变压器 VS 双向 BERT
【发布时间】：2023-03-13 19:50:01
【问题描述】：

我刚刚读完Transformer 论文和BERT 论文。但无法弄清楚为什么 Transformer 是单向的，而 BERT 是双向的，正如 BERT 论文中提到的那样。由于他们不使用循环网络，因此解释方向并不是那么简单。任何人都可以提供一些线索吗？谢谢。

【问题讨论】：

【解决方案1】：

为了澄清，Vaswani 等人的原始 Transformer 模型。是一种编码器-解码器架构。因此，“变压器是单向的”这一说法具有误导性。

事实上，transformer encoder 是双向的，这意味着self-attention 可以同时关注左右两个token。相比之下，decoder 是单向的，因为在一次生成一个令牌时，您不能让解码器关注当前令牌的右侧。 Transformer 解码器通过将标记向右屏蔽来约束自注意力。

BERT 使用 Transformer 编码器架构，因此可以同时关注左右，从而实现“双向性”。

来自 BERT 论文本身：

我们注意到，在文献中双向 Transformer 通常被称为“Transformer 编码器”，而仅左上下文版本被称为“Transformer 解码器”，因为它可用于文本生成。