【问题标题】:LSTM- detach the hidden stateLSTM-分离隐藏状态
【发布时间】:2021-02-13 16:37:12
【问题描述】:

所以我开始研究 RNN,尤其是 LSTM,其中有一部分理论我就是不明白。

当你堆叠 LSTM 单元时,我看到每个人都是如何将隐藏状态从历史中分离出来的,但这对我来说毫无意义,LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗?

我阅读了文档,但我仍然不清楚,所以欢迎任何解释

【问题讨论】:

  • 您可能想让这更精确一点,并包括您的意思的示例。在 RNN 的 theory 中没有“从历史中分离状态”之类的东西(这就是您在文本中所指的内容)。我想您是在谈论 pytorch 代码或类似的东西,在这种情况下,(代码)示例会很有用。

标签: python lstm recurrent-neural-network


【解决方案1】:

你没看错,LSTM 中的隐藏状态是用来作为记忆的。但是出现了这个问题,我们应该学习它们吗?不,隐藏状态不应该被学习,所以我们将其分离以让模型使用这些值,但 计算梯度。

如果你不分离,那么渐变会很大。

【讨论】:

  • 谢谢!这就是我正在寻找的解释
  • (在 Pytorch 中)我应该将隐藏状态设置为缓冲区吗?似乎分离变量也很有效。
  • 我用 Pytorch 写代码不多,但我会先尝试分离。@zheyuanWang
猜你喜欢
  • 2018-09-21
  • 1970-01-01
  • 2019-03-15
  • 1970-01-01
  • 2019-05-05
  • 2016-12-13
  • 1970-01-01
  • 2016-05-17
  • 2021-03-05
相关资源
最近更新 更多