【发布时间】:2021-09-09 12:33:04
【问题描述】:
只有一件事我找不到答案: 将输出放回变压器时,我们与输入类似地计算它(添加了掩码),所以还有序列大小限制吗?
即使 BERT 也有 512 个令牌的输入大小限制,因此转换器可以接收的数量有限。 那么有什么东西可以使输出长度尽可能大,还是有固定的最大长度?
如果我不够清楚,网络是否会无限生成单词直到
【问题讨论】:
标签: nlp artificial-intelligence transformer
只有一件事我找不到答案: 将输出放回变压器时,我们与输入类似地计算它(添加了掩码),所以还有序列大小限制吗?
即使 BERT 也有 512 个令牌的输入大小限制,因此转换器可以接收的数量有限。 那么有什么东西可以使输出长度尽可能大,还是有固定的最大长度?
如果我不够清楚,网络是否会无限生成单词直到
【问题讨论】:
标签: nlp artificial-intelligence transformer
这取决于 Transformer 使用的位置编码类型。具有学习静态位置嵌入的模型(例如 BERT)不能超过学习位置的数量,这仅仅是因为它们无法嵌入下一个输入以供解码器产生输出。
用于机器翻译的原始 Transformer 使用解析定义的位置编码(所谓的正弦编码),理论上应该泛化任意长的输入和输出。然而,在实践中,对于比训练数据中的序列长得多的序列,它的泛化能力很差。
如果您想了解更多关于 Transformers 中位置编码的信息,可以查看this survey。
【讨论】: