最多使用第 n 个时间步的 RNN (LSTM)答案

【问题标题】：RNN (LSTM) that uses up to the nth time step最多使用第 n 个时间步的 RNN (LSTM)
【发布时间】：2021-02-04 10:36:12
【问题描述】：

通常在 RNN 中，仅使用先前的输入和隐藏状态来计算输出。但是，如果我们使用多达 n 个先前的步骤会发生什么？本质上是向神经网络提供一个 n-gram？由于 n-gram 在短文本生成方面通常非常出色，因此这些添加的信息将减轻隐藏状态下记忆短期知识并专注于文本上下文方面的负担。

这似乎是一件很简单的事情，但我找不到任何实现这一点的论文。

【问题讨论】：

【解决方案1】：

我所看到的与您所描述的最接近的想法是自动编码器中的注意力机制。 Dense 层本质上控制解码层应该使用哪些编码隐藏状态，而不是仅仅依赖于最后一个隐藏状态。

如果你想了解更多，这里是paper。

这种架构旨在规避在一个隐藏状态中可以在长序列中存储多少信息的限制。

【讨论】：

我看过这篇论文。基本上，您有一个取决于先前隐藏状态的上下文。但是您只将前一个令牌提供给 RNN。我想知道给定之前的 n-gram 是否会使隐藏状态更有意义，因为通常情况下，n-gram 模型与低容量 lstm 或早期训练的模型相当。