【发布时间】:2017-05-26 12:09:59
【问题描述】:
在 Keras 的 LSTM 实现中的默认模式(stateful = False)下,一批中的所有样本都是独立的,并且状态不会从一个样本传播到下一个样本。据我了解,输入序列长度 (L) 是让 LSTM 保持状态的唯一方法。但这将状态传播限制在固定数量的时间步,即 L。从理论上讲,与具有固定大小滑动输入窗口的前馈 NN 相比,这种操作模式有什么优势。这样 NN 的每个输入都是 L 个连续输入值的向量。
理论上,LSTM 应该能够学习跨越 1000 个时间步长的长期依赖关系。但这不需要我有 L = 1000,因为没有办法捕获比输入序列长度更长的依赖关系?我知道可以通过格式化输入数据来使用有状态模式,这样每个批次的第 i 个样本是相关的。我很难理解默认 LSTM 模式相对于输入数据上具有滑动窗口的前馈 NN 有什么优势?
【问题讨论】:
-
对此有任何答案吗?
标签: keras lstm feed-forward