【问题标题】:Uni-directional Transformer VS Bi-directional BERT单向变压器 VS 双向 BERT
【发布时间】:2023-03-13 19:50:01
【问题描述】:

我刚刚读完Transformer 论文和BERT 论文。但无法弄清楚为什么 Transformer 是单向的,而 BERT 是双向的,正如 BERT 论文中提到的那样。由于他们不使用循环网络,因此解释方向并不是那么简单。任何人都可以提供一些线索吗?谢谢。

【问题讨论】:

    标签: nlp transformer pre-trained-model bert-language-model


    【解决方案1】:

    为了澄清,Vaswani 等人的原始 Transformer 模型。是一种编码器-解码器架构。因此,“变压器是单向的”这一说法具有误导性。

    事实上,transformer encoder 是双向的,这意味着self-attention 可以同时关注左右两个token。相比之下,decoder 是单向的,因为在一次生成一个令牌时,您不能让解码器关注当前令牌的右侧。 Transformer 解码器通过将标记向右屏蔽来约束自注意力。

    BERT 使用 Transformer 编码器架构,因此可以同时关注左右,从而实现“双向性”。

    来自 BERT 论文本身:

    我们注意到,在文献中双向 Transformer 通常被称为“Transformer 编码器”,而仅左上下文版本被称为“Transformer 解码器”,因为它可用于文本生成。

    推荐阅读:this article

    【讨论】:

    • 伟大的诠释!我还认为 Transformer 编码器是双向的,通过参与左右标记。这里的单向和双向与 RNN 中的概念有点不同。你的回答很清楚。
    • 从这个意义上说,解码器也是双向的吗?基本上你将已经预测的单词输入解码器,这些单词可以双向参与。
    猜你喜欢
    • 2012-09-28
    • 2021-08-29
    • 1970-01-01
    • 2012-03-14
    • 2021-11-16
    • 2013-03-07
    • 1970-01-01
    • 1970-01-01
    • 2016-01-31
    相关资源
    最近更新 更多