在大规模翻译任务的经验中,简单的堆叠LSTM层最多可以工作4层,很少工作6层,超过8层就很差了。

Redisual connection有助于梯度的反向传播,能够帮助lstm堆叠更多层,实现更深层的训练,但是一般也就是最多到8层。

LSTM一般最多堆叠多少层

参考文献:

1.https://arxiv.org/pdf/1609.08144.pdf

相关文章:

  • 2021-11-11
  • 2021-05-14
  • 2021-04-14
  • 2022-02-05
  • 2022-02-12
  • 2021-11-20
  • 2021-06-16
  • 2021-07-17
猜你喜欢
  • 2022-12-23
  • 2021-07-25
  • 2021-07-24
  • 2021-07-16
  • 2021-11-28
  • 2021-09-04
  • 2022-01-06
相关资源
相似解决方案