【问题标题】:Transformer - Attention is all you need - encoder decoder cross attentionTransformer - Attention is all you need - 编码器解码器交叉注意力
【发布时间】:2019-06-27 20:21:22
【问题描述】:

据我了解,每个编码器块都从前一个编码器获取输出,并且输出是序列(又名句子)的参与表示 (Z)。我的问题是,最后一个编码器块如何从 Z 产生 K,V(用于解码器的编码器-解码注意力 aublayer)

我们只是从最后一个编码器层获取 Wk 和 Wv 吗?

http://jalammar.github.io/illustrated-transformer/

【问题讨论】:

  • 您找到问题的答案了吗?我也很难理解解码器阶段/

标签: deep-learning nlp attention-model


【解决方案1】:

我认为对于解码器的所有第一个(非屏蔽)多头注意力层,$K = V = Z$。但在计算该子层的注意力之前,$K$ 和 $V$ 被投影到具有单独训练参数矩阵 $W_i^K$ 和 $W_i^V$ 的不同空间。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-07-07
    • 1970-01-01
    • 2019-07-21
    • 1970-01-01
    • 2022-07-05
    • 2020-01-28
    • 2016-10-30
    • 1970-01-01
    相关资源
    最近更新 更多