LSTM-分离隐藏状态答案

【问题标题】：LSTM- detach the hidden stateLSTM-分离隐藏状态
【发布时间】：2021-02-13 16:37:12
【问题描述】：

所以我开始研究 RNN，尤其是 LSTM，其中有一部分理论我就是不明白。

当你堆叠 LSTM 单元时，我看到每个人都是如何将隐藏状态从历史中分离出来的，但这对我来说毫无意义，LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗？

我阅读了文档，但我仍然不清楚，所以欢迎任何解释

【问题讨论】：

您可能想让这更精确一点，并包括您的意思的示例。在 RNN 的 theory 中没有“从历史中分离状态”之类的东西（这就是您在文本中所指的内容）。我想您是在谈论 pytorch 代码或类似的东西，在这种情况下，（代码）示例会很有用。

【解决方案1】：

你没看错，LSTM 中的隐藏状态是用来作为记忆的。但是出现了这个问题，我们应该学习它们吗？不，隐藏状态不应该被学习，所以我们将其分离以让模型使用这些值，但不计算梯度。

如果你不分离，那么渐变会很大。

【讨论】：