【发布时间】:2021-03-21 11:43:29
【问题描述】:
我正在阅读著名的论文'Attention is all you need'。虽然我对大多数主要概念都很清楚,但有几点有问题
- Encoder 如何将使用输入计算的注意力矩阵传递给 Decoder?就像我理解的那样,它只将 Key & Value 矩阵传递给解码器
- 我们在测试时从哪里获得解码器的移位输出?
- 由于它一次只能输出一个令牌,因此该转换器是否会运行多次迭代以生成输出序列。如果是,那么如何知道何时停止?
- 在解码器中是否在 Multi-Head Attention 中训练了权重,因为它已经从编码器和蒙面的多头注意力中获得了 Q、K 和 V
感谢任何帮助
【问题讨论】:
标签: machine-learning nlp artificial-intelligence huggingface-transformers attention-model