attention model - 爱码网

先看下之前用CNN+RNN做Captioning的model，图片经过CNN（包括CONV和FC）后的feature输入到RNN的入口处（RNN仅此一次使用到图片信息），然后用training data中包含的对应的文字信息求出vocabulary的分布，如此即可计算loss来进行training

attention model

上面的这个方法有些缺陷，我们希望

1. RNN能多次看图片的信息

2. 每次能focus图片的不同部分

这就有了Attention Model

这时使用的是结果Conv后的特征，因为这时的特征还包含了空间的信息，如果结果fc展开后就失去了空间信息

而且这时候还要计算的是Distribution over L location，及在空间中的分布信息，说白了，就是当前这个word注意的是图片的哪个部分，通过与卷积层的feature进行运算后也作为RNN的输入

attention model

而且哪个word注意图片的哪一部分是自己学到的，是unsupervised（training data没有具体标明哪个word应该注意哪个图片part）

Attention还可以用在机器翻译，视频处理等多个领域‘

attention model