变压器的输出是否有最大序列长度？

【问题标题】：Is there a maximum sequence length for the output of a transformer?变压器的输出是否有最大序列长度？
【发布时间】：2021-09-09 12:33:04
【问题描述】：

只有一件事我找不到答案：将输出放回变压器时，我们与输入类似地计算它（添加了掩码），所以还有序列大小限制吗？

即使 BERT 也有 512 个令牌的输入大小限制，因此转换器可以接收的数量有限。那么有什么东西可以使输出长度尽可能大，还是有固定的最大长度？

如果我不够清楚，网络是否会无限生成单词直到标记，或者输出是否有标记限制？

【问题讨论】：

【解决方案1】：

这取决于 Transformer 使用的位置编码类型。具有学习静态位置嵌入的模型（例如 BERT）不能超过学习位置的数量，这仅仅是因为它们无法嵌入下一个输入以供解码器产生输出。

用于机器翻译的原始 Transformer 使用解析定义的位置编码（所谓的正弦编码），理论上应该泛化任意长的输入和输出。然而，在实践中，对于比训练数据中的序列长得多的序列，它的泛化能力很差。

如果您想了解更多关于 Transformers 中位置编码的信息，可以查看this survey。

【讨论】：