Transformer - Attention is all you need - 编码器解码器交叉注意力答案

【问题标题】：Transformer - Attention is all you need - encoder decoder cross attentionTransformer - Attention is all you need - 编码器解码器交叉注意力
【发布时间】：2019-06-27 20:21:22
【问题描述】：

据我了解，每个编码器块都从前一个编码器获取输出，并且输出是序列（又名句子）的参与表示 (Z)。我的问题是，最后一个编码器块如何从 Z 产生 K，V（用于解码器的编码器-解码注意力 aublayer）

我们只是从最后一个编码器层获取 Wk 和 Wv 吗？

http://jalammar.github.io/illustrated-transformer/

【问题讨论】：

您找到问题的答案了吗？我也很难理解解码器阶段/

标签： deep-learning nlp attention-model

【解决方案1】：

我认为对于解码器的所有第一个（非屏蔽）多头注意力层，$K = V = Z$。但在计算该子层的注意力之前，$K$ 和 $V$ 被投影到具有单独训练参数矩阵 $W_i^K$ 和 $W_i^V$ 的不同空间。

【讨论】：