LSTM(Long Short Term):一种 RNN 特殊的类型,可以学习长期依赖信息。

目的:

解决长序依赖问题

工作原理:

LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”。
【网络学习】LSTM 长期依赖(Long-Term Dependencies)问题
第一步,决定我们会从细胞状态中丢弃什么信息: 忘记门层
【网络学习】LSTM 长期依赖(Long-Term Dependencies)问题

第二步, 什么样的新信息被存放在细胞状态中。
【网络学习】LSTM 长期依赖(Long-Term Dependencies)问题
最终,确定输出什么值。sigmoid 层:确定细胞状态的哪个部分将输出出去。细胞状态通过 tanh 进行处理(得到一个在 -1 到 1 之间的值)并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。
【网络学习】LSTM 长期依赖(Long-Term Dependencies)问题

总结:

分三步,忘记什么、新进来什么、**什么,关键是三部分都有sigmoid+ pointwise 来控制通过的量。
【网络学习】LSTM 长期依赖(Long-Term Dependencies)问题
普适性高,可以有各种变体,但原理是一致的。

相关文章: