【问题标题】:How Encoder passes Attention Matrix to Decoder in Tranformers 'Attention is all you need'?Encoder 如何在 Transformer 'Attention is all you need' 中将注意力矩阵传递给解码器?
【发布时间】:2021-03-21 11:43:29
【问题描述】:

我正在阅读著名的论文'Attention is all you need'。虽然我对大多数主要概念都很清楚,但有几点有问题

  1. Encoder 如何将使用输入计算的注意力矩阵传递给 Decoder?就像我理解的那样,它只将 Key & Value 矩阵传递给解码器
  2. 我们在测试时从哪里获得解码器的移位输出?
  3. 由于它一次只能输出一个令牌,因此该转换器是否会运行多次迭代以生成输出序列。如果是,那么如何知道何时停止?
  4. 在解码器中是否在 Multi-Head Attention 中训练了权重,因为它已经从编码器和蒙面的多头注意力中获得了 Q、K 和 V

感谢任何帮助

【问题讨论】:

    标签: machine-learning nlp artificial-intelligence huggingface-transformers attention-model


    【解决方案1】:
    1. 编码器传递计算的“注意力”矩阵。这个注意力矩阵被认为是解码器多头注意力模块的“关键”和“价值”矩阵

    2. 为什么我们需要转移输出进行测试?它不是必需的,因为在测试时,我们需要从令牌 1 中预测“BOS”(序列开始)令牌被认为是过去的令牌并因此自动左移

    3. 是的,我们需要一次又一次地迭代预测一个标记。如果预测的令牌是“EOS”(序列结束),我们停止

    4. 这不清楚,但看起来解码器的多头注意力没有经过训练

    【讨论】:

      猜你喜欢
      • 2019-06-27
      • 2019-07-21
      • 2023-01-31
      • 2022-12-15
      • 2020-01-27
      • 2020-08-29
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多