Reference based LSTM for Image Captioning

       这篇文章,在训练阶段和预测阶段都加入了references:在训练阶段通过references来判断训练captions中出现的每个单词的重要性;在预测阶段则在选择生成的caption时,使用似然概率和consensus score的加权平均来权衡生成句子的好坏,这样可以使选出的句子更具准确性。

论文笔记:Reference based LSTM for Image Captioning

1.训练阶段的reference

首先这里要引入论文笔记:Reference based LSTM for Image Captioning的概念,这是一个比较有趣的参数它的图示如下公式8所示。其中I表示的是卷积特征,而论文笔记:Reference based LSTM for Image Captioning代表的是训练集中任意两两图片间的平均距离。两个图的,相似度越高,则这个值也就越大。

论文笔记:Reference based LSTM for Image Captioning

 

由下图,我们发现,通过bicycle索引出的图片(就是caption中同样拥有bicycle的图片),与目标图片比较高的相似度,也就是论文笔记:Reference based LSTM for Image Captioning更大;而a索引出的图片则相似度更小。因此,可以用论文笔记:Reference based LSTM for Image Captioning直接来代表这个单词在这个caption中的重要性。(这个概念其实就是论文笔记:Reference based LSTM for Image Captioning很好的拟合,想想,确定一个词bicycle的情况下,找到了和它相似度较高的图片,不就说明论文笔记:Reference based LSTM for Image Captioning的概率大吗)

论文笔记:Reference based LSTM for Image Captioning

接下来,便可以很好的引入这篇文章想要的重要性机制了。对于训练图片I对应的captions中的每一个词的重要性记为论文笔记:Reference based LSTM for Image Captioning,如公式4所示。这个定义类似于TF-IDF:分子表示词语在这个图片中出现的概率,越大越好,但是有一类词在每个图片中出现的概率都很大,这种词对于图片的标示性很低,即使概率大也不应该赋予比较高的重要性;因此来一个修正,分母代表的是这个词语在整个训练语料库中出现的概率,越常见的词这个概率越大,与重要性成反比。

论文笔记:Reference based LSTM for Image Captioning

接下来,又是贝叶斯概率公式,上,比较简单,5到6的过度,是因为给定了训练集以后,P(I)也就确定了,作为一个常数可以直接囊括到论文笔记:Reference based LSTM for Image Captioning里去。

论文笔记:Reference based LSTM for Image Captioning

论文笔记:Reference based LSTM for Image Captioning

因此,上文说过,论文笔记:Reference based LSTM for Image Captioning可以很好的拟合概率论文笔记:Reference based LSTM for Image Captioning,带进来,便有

论文笔记:Reference based LSTM for Image Captioning

便得到每个词的重要性,对于更为重要的词,希望可以在训练过程中施加更为重要的影响,在最后训练的目标函数中引入了这个参数。

2.预测阶段的reference

对于预测阶段,目标图片是J,生成的描述句子用R表示。这里通常的做法是使用对数似然概率论文笔记:Reference based LSTM for Image Captioning来表示,这篇文章引入consensus score,并对两个指标进行了归一化。

论文笔记:Reference based LSTM for Image Captioning

论文笔记:Reference based LSTM for Image Captioning

最后的评价标准如下:

论文笔记:Reference based LSTM for Image Captioning

作者认为,consensus score的引入可以修正误判,并且使句子更加自然。

 

参考文献:

 Reference Based LSTM for Image Captioning. Minghai Chen, Guiguang Ding, Sicheng Zhao, Hui Chen, Qiang Liu, Jungong Han.

 

 

相关文章: