将文本搜索添加到基于内容的图像检索 (convnet)答案

【问题标题】：Adding text search to content based image retrieval (convnet)将文本搜索添加到基于内容的图像检索 (convnet)
【发布时间】：2019-01-23 21:18:55
【问题描述】：

我已经使用标准的 ConvNet 方法实现了 CBIR 应用程序：

使用迁移学习从图像数据集中提取特征
通过 knn 提取聚类特征
给定搜索图像，提取其特征
给出与knn网络中手头图像接近的前10张图像

我得到了很好的结果，但我还想通过添加文本搜索来进一步改进它们。例如，当我的图像是汽车的方向盘时，关闭结果将是任何类似于方向盘的圆形物体，例如自行车车轮。输入文本的最佳方法是“汽车零件”以仅生成与搜索图像相似的方向盘。

我无法找到将 ConvNet 与文本搜索模型相结合来构建改进的 knn 网络的好方法。

我的另一个想法是使用 ElasticSearch 来进行文本搜索，这是 ElasticSearch 擅长的。例如，我会执行之前描述的 CBIR 搜索，然后在返回结果中，我可以查找他们的描述，然后在命中的子集上使用 ElasticSearch 来生成结果。也许用类标记图像并允许用户取消/选择感兴趣的图像组。

我不想在图像搜索之前进行文本搜索，因为有些图像描述不佳，因此文本搜索会错过它们。

任何想法或想法将不胜感激！

【问题讨论】：

标签： python machine-learning deep-learning computer-vision conv-neural-network

【解决方案1】：

我还没有找到原始论文，但也许你会觉得它很有趣：https://www.slideshare.net/xavigiro/multimodal-deep-learning-d4l4-deep-learning-for-speech-and-language-upc-2017

这是关于寻找图像和文本都存在的向量空间（多模态嵌入）。这样就可以找到类似图片的文字，图片引用文字，或者使用元组text/image来查找类似图片。

我认为也许这个想法是一个有趣的起点。

【讨论】：

感谢您的链接！我将不得不回顾一些提到的研究，看看我是否可以让它解决我的问题。乍一看，我也许可以根据我的目的调整视觉和文本问答方法……我们拭目以待。 :)