【问题标题】:Is there a maximum sequence length for the output of a transformer?变压器的输出是否有最大序列长度?
【发布时间】:2021-09-09 12:33:04
【问题描述】:

只有一件事我找不到答案: 将输出放回变压器时,我们与输入类似地计算它(添加了掩码),所以还有序列大小限制吗?

即使 BERT 也有 512 个令牌的输入大小限制,因此转换器可以接收的数量有限。 那么有什么东西可以使输出长度尽可能大,还是有固定的最大长度?

如果我不够清楚,网络是否会无限生成单词直到 标记,或者输出是否有标记限制?

【问题讨论】:

    标签: nlp artificial-intelligence transformer


    【解决方案1】:

    这取决于 Transformer 使用的位置编码类型。具有学习静态位置嵌入的模型(例如 BERT)不能超过学习位置的数量,这仅仅是因为它们无法嵌入下一个输入以供解码器产生输出。

    用于机器翻译的原始 Transformer 使用解析定义的位置编码(所谓的正弦编码),理论上应该泛化任意长的输入和输出。然而,在实践中,对于比训练数据中的序列长得多的序列,它的泛化能力很差。

    如果您想了解更多关于 Transformers 中位置编码的信息,可以查看this survey

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-03-01
      • 2014-07-22
      • 1970-01-01
      • 2011-10-05
      • 2014-09-27
      • 2011-03-24
      • 1970-01-01
      • 2012-08-02
      相关资源
      最近更新 更多