长序列在有注意力的 seq2seq 模型中？答案

【问题标题】：Long Sequence In a seq2seq model with attention?长序列在有注意力的 seq2seq 模型中？
【发布时间】：2017-06-04 05:45:49
【问题描述】：

我遵循this pytorch tutorial 并尝试将此原则应用于摘要，其中编码序列约为 1000 个单词，解码器目标为 200 个单词。

如何将seq2seq 应用于此？我知道一次完成 1000 个单词的整个序列会非常昂贵并且几乎不可行。因此，将 seq 分成 20 个 seq 并并行运行可能是一个答案。但我不确定如何实现它；我也想把注意力融入其中。

【问题讨论】：

循环网络本质上是顺序的。它们不能并行化，因为每个计算都依赖于前一个计算。此外，大多数最先进的摘要架构都使用标准的 seq2seq 范式，没有任何问题。我想知道你为什么称它为不可行。

【解决方案1】：

您无法及时并行化 RNN（此处为 1000），因为它们本质上是顺序的。

您可以使用轻量级 RNN，例如 QRNN 或 SRU 作为更快的替代方案（仍然是顺序的）。

另一个常见的序列处理模块是TCN和Transformers，它们都可以在时间上并行化。

另外，请注意，所有这些都可以用心使用，并且与文本完美配合。

【讨论】：