【问题标题】:Long Sequence In a seq2seq model with attention?长序列在有注意力的 seq2seq 模型中?
【发布时间】:2017-06-04 05:45:49
【问题描述】:

我遵循this pytorch tutorial 并尝试将此原则应用于摘要,其中编码序列约为 1000 个单词,解码器目标为 200 个单词。

如何将seq2seq 应用于此?我知道一次完成 1000 个单词的整个序列会非常昂贵并且几乎不可行。因此,将 seq 分成 20 个 seq 并并行运行可能是一个答案。但我不确定如何实现它;我也想把注意力融入其中。

【问题讨论】:

  • 循环网络本质上是顺序的。它们不能并行化,因为每个计算都依赖于前一个计算。此外,大多数最先进的摘要架构都使用标准的 seq2seq 范式,没有任何问题。我想知道你为什么称它为不可行

标签: python lstm summarization pytorch


【解决方案1】:

您无法及时并行化 RNN(此处为 1000),因为它们本质上是顺序的。

您可以使用轻量级 RNN,例如 QRNNSRU 作为更快的替代方案(仍然是顺序的)。

另一个常见的序列处理模块是TCNTransformers,它们都可以在时间上并行化。

另外,请注意,所有这些都可以用心使用,并且与文本完美配合。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-04-20
    • 2017-09-25
    • 1970-01-01
    • 2022-07-05
    • 2021-02-07
    • 2019-01-02
    相关资源
    最近更新 更多