【发布时间】:2021-02-24 04:54:40
【问题描述】:
在训练时,据我从“Attention is all you need”论文中了解到,在解码器中使用 masked-self-attention 的方式是多次输入输出序列,每次都移除掩码从下一个令牌开始。
第一季度。在推理时,预期的输出序列长度是未知的。您如何决定要添加多少掩码令牌?您是否总是用掩码标记填充输入的最大长度并在预测到序列结束符号时停止?
第二季度。 GPT 推理目标任务略有不同。将“查询”向量注入模型(例如相似性任务中的 [text1;text2] 和 [text2;text1])。在这种情况下如何使用掩蔽?我希望整个序列将只在一个步骤中注入而没有掩码,但这与 masked-self-attention 方法相矛盾。
【问题讨论】:
标签: nlp transformer gpt