论文笔记：Reference based LSTM for Image Captioning

Reference based LSTM for Image Captioning

这篇文章，在训练阶段和预测阶段都加入了references:在训练阶段通过references来判断训练captions中出现的每个单词的重要性；在预测阶段则在选择生成的caption时，使用似然概率和consensus score的加权平均来权衡生成句子的好坏，这样可以使选出的句子更具准确性。

1.训练阶段的reference

首先这里要引入论文笔记：Reference based LSTM for Image Captioning 的概念，这是一个比较有趣的参数它的图示如下公式8所示。其中I表示的是卷积特征，而代表的是训练集中任意两两图片间的平均距离。两个图的，相似度越高，则这个值也就越大。

论文笔记：Reference based LSTM for Image Captioning

由下图，我们发现，通过bicycle索引出的图片（就是caption中同样拥有bicycle的图片），与目标图片比较高的相似度，也就是论文笔记：Reference based LSTM for Image Captioning 更大；而a索引出的图片则相似度更小。因此，可以用直接来代表这个单词在这个caption中的重要性。（这个概念其实就是很好的拟合，想想，确定一个词bicycle的情况下，找到了和它相似度较高的图片，不就说明论文笔记：Reference based LSTM for Image Captioning 的概率大吗）

论文笔记：Reference based LSTM for Image Captioning

接下来，便可以很好的引入这篇文章想要的重要性机制了。对于训练图片I对应的captions中的每一个词的重要性记为论文笔记：Reference based LSTM for Image Captioning ，如公式4所示。这个定义类似于TF-IDF：分子表示词语在这个图片中出现的概率，越大越好，但是有一类词在每个图片中出现的概率都很大，这种词对于图片的标示性很低，即使概率大也不应该赋予比较高的重要性；因此来一个修正，分母代表的是这个词语在整个训练语料库中出现的概率，越常见的词这个概率越大，与重要性成反比。