LSTM(Long Short Term):一种 RNN 特殊的类型,可以学习长期依赖信息。
目的:
解决长序依赖问题
工作原理:
LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”。
第一步,决定我们会从细胞状态中丢弃什么信息: 忘记门层
第二步, 什么样的新信息被存放在细胞状态中。
、
最终,确定输出什么值。sigmoid 层:确定细胞状态的哪个部分将输出出去。细胞状态通过 tanh 进行处理(得到一个在 -1 到 1 之间的值)并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。
总结:
分三步,忘记什么、新进来什么、**什么,关键是三部分都有sigmoid+ pointwise 来控制通过的量。
普适性高,可以有各种变体,但原理是一致的。