深度学习 - 使用图像及其描述

【问题标题】：Deep learning - use both images and their description深度学习 - 使用图像及其描述
【发布时间】：2017-06-19 13:45:48
【问题描述】：

我将制作一个可以对图像进行分类的分类器。我知道我应该为此使用卷积神经网络。问题是每张图片我都有一个描述。有什么方法可以使用这个描述来改进分类器？

【问题讨论】：

标签： image neural-network deep-learning conv-neural-network

【解决方案1】：

最简单的方法是同时使用图像特征 (CNN) 和文本特征（以 LSTM 语言模型、词袋或现成的编码器（如 skip-thought 向量）的形式）并训练网络以通常的方式对图像类进行预测。这两个特征可以通过连接、元素乘法、元素求和或外积来组合。看看视觉问答 (VQA) 的最新进展，您所描述的内容听起来像是 VQA 可以做的事情的一个子集。

【讨论】：

【解决方案2】：

当然，神经网络已用于 https://arxiv.org/pdf/1609.08144v2.pdf 中的文本。你只想输出类而不是句子，这样你就有了比他们更容易的时间。要组合分类器，您可以在输出上使用加权秩和。

分类器改进了多少听起来对我来说很有趣，并且可以作为出版物的基础。

【讨论】：