先看下之前用CNN+RNN做Captioning的model,图片经过CNN(包括CONV和FC)后的feature输入到RNN的入口处(RNN仅此一次使用到图片信息),然后用training data中包含的对应的文字信息求出vocabulary的分布,如此即可计算loss来进行training

attention model


上面的这个方法有些缺陷,我们希望

1. RNN能多次看图片的信息

2. 每次能focus图片的不同部分


这就有了Attention Model

这时使用的是结果Conv后的特征,因为这时的特征还包含了空间的信息,如果结果fc展开后就失去了空间信息

而且这时候还要计算的是Distribution over L location,及在空间中的分布信息,说白了,就是当前这个word注意的是图片的哪个部分,通过与卷积层的feature进行运算后也作为RNN的输入

attention model

而且哪个word注意图片的哪一部分是自己学到的,是unsupervised(training data没有具体标明哪个word应该注意哪个图片part)


Attention还可以用在机器翻译,视频处理等多个领域‘



attention model

相关文章:

  • 2021-10-20
  • 2021-09-27
  • 2021-12-23
  • 2021-06-17
  • 2021-05-17
  • 2021-04-11
  • 2021-12-04
猜你喜欢
  • 2021-08-06
  • 2021-07-14
  • 2021-10-18
  • 2021-08-09
  • 2021-09-05
相关资源
相似解决方案