【发布时间】:2021-02-04 10:36:12
【问题描述】:
通常在 RNN 中,仅使用先前的输入和隐藏状态来计算输出。 但是,如果我们使用多达 n 个先前的步骤会发生什么?本质上是向神经网络提供一个 n-gram? 由于 n-gram 在短文本生成方面通常非常出色,因此这些添加的信息将减轻隐藏状态下记忆短期知识并专注于文本上下文方面的负担。
这似乎是一件很简单的事情,但我找不到任何实现这一点的论文。
【问题讨论】:
-
我还没有看到 RNN 记忆 n-previous 时间步,甚至 LSTM 也只记得正确的前一个
-
我不会假装在记忆中。我们只是向 RNN 提供一个 n-gram,而不是像通常那样使用 1-gram。
-
也许使用
LSTM(units=n, ...表示n-gram,n 个隐藏状态来学习长度为n 的序列 -
@datdinhquoc,LSTM 不只记得最后一步。门控单元和存储单元允许信息跨多个时间步长流动。
标签: deep-learning neural-network lstm recurrent-neural-network