Image Annotation图像标注小结

多标签图像识别=多标签图像分类=多标签图像标注

对象建议=区域建议=检测建议

Image Annotation图像标注小结

多类分类 VS 多标签分类

参考链接：https://blog.csdn.net/uncle_ll/article/details/82778750
参考链接：https://blog.csdn.net/ghui23/article/details/51225450
参考链接：http://blog.chinaunix.net/uid-23028928-id-2567754.html
Image Annotation图像标注小结

多类分类：属于多类别中哪一类的问题，即一个样本只能属于一个类
意味着候选集是一个多分类，而不仅仅是二分类，不是是与否的问题，而是属于多类中哪一类的问题。
一个样本属于且只属于多个分类中的一个，一个样本只能属于一个类，不同类之间是互斥的。
举例而言，MNIST数据集，常用的数字手写体识别数据集，它的标签是一个多分类的过程，要将数字手写体识别为0~9中的某一个数字

多标签分类：一个样本的标签不仅仅局限于一个类别，可以具有多个类别，不同类之间是有关联的。
比如一件衣服，其具有的特征类别有长袖、蕾丝等属性等，这两个属性标签不是互斥的，而是有关联的。

准确率、召回率和F值是在鱼龙混杂的环境中，选出目标的重要评价指标。
不妨看看这些指标的定义先：
准确率 = 正确识别的个体总数 / 识别出的个体总数
召回率 = 正确识别的个体总数 / 测试集中存在的个体总数
F1值 = 准确率 * 召回率 * 2 / (准确率 + 召回率)

不妨举这样一个例子：
某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。
Seaeagle撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：

正确率 = 700 / (700 + 200 + 100) = 70%
召回率 = 700 / 1400 = 50%
F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
不妨看看如果Seaeagle把池子里的所有的鲤鱼、虾和鳖都一网打尽，这些指标又有何变化：
正确率 = 1400 / (1400 + 300 + 300) = 70%
召回率 = 1400 / 1400 = 100%
F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%
由此可见，
正确率，评估捕获的成果中目标成果所占得比例；
召回率，顾名思义，就是从关注领域中，召回目标类别的比例；
而F值，则是综合这二者指标的评估指标，用于综合反映整体的指标。
***************************************************************************************88

Image Annotation图像标注小结

1：标签关系

《Learning Structured Inference Neural Networks with Label Relations》

2016–黄鹤翔–邓志伟–学习具有标签关系的结构化推理神经网络
标签之间是有一定关系的；标签之间的关系可以形成一个复杂的网络；可以形成不同层次的解释来表示这样的图像
Image Annotation图像标注小结
模型的要求包括：（1）能够对标签-标签关系(如正相关或负相关)建模；（2）尊重从WordNet等源获得的多个概念层；（3）处理部分观察到的标签数据(给定此图像的准确标签子集，推断出剩余的缺失标签)

参考RNN结构，构建的模型中连接相邻的时间步t来反映层间标签关系，同时在每个时间步t中捕获层内关系

论文首先描述了一个自顶向下推理模型(学习并建立inter-layer层间关系与intra-layer层内关系)，然后给出了一个双向推理模型(建立双向推理模型更有意义，因为概念层同样与两个相连的层相关)，最后提出了我们的结构化推理神经网络SINN
Image Annotation图像标注小结

2：将检测的区域建议作为CNN的输入(数据集不需要包围框)

2014–《CNN: Single-label to Multi-label》
2016–《HCP: A Flexible CNN Framework for Multi-Label Image Classification》
论文2014 是论文2016的详细版本

F1：以任意数量的对象片段假设作为输入，然后将共享的CNN与每个假设相连。最后，将不同假设的CNN输出结果用 交叉假设最大池化 进行聚合，得到最终的多标签预测
F2：由于对象假设通常具有较高的客观置信度，这意味着它们更可能包含某些语义对象，所以在裁剪和规范化之后，错误对齐和遮挡都可以稍微减轻。
F3：通过将多标签问题放宽为多个单标签任务，并减少错误对齐和遮挡的问题，可以更好地利用CNN模型的识别能力
Image Annotation图像标注小结首先根据 假设提取方法 生成给定图像的输入假设。
然后，对于每个假设，共享CNN都可以得到一个C维预测结果。
最后，我们利用交叉假设最大池操作和softmax来生成最终的预测。
如图4所示，第二行和第三行分别表示共享CNN生成的假设和相应的输出。

Image Annotation图像标注小结

单标签图像的预训练模型 ----> 多标签图像的模型(使用的是整个图像作为CNN的输入)
注意三点：
A、直接resize到256*256，没有数据增强
B、误差的计算–平方误差损失函数被使用
C、参数的初始化：前面七层采用预训练的参数，第八层采用均值为0，方差为0.01的高斯随机初始化；卷积层的学习率、前两层的全连接和最后一层全连接的学习率分别为：0.001、0.002和0.01
之所有选用不同的学习率，原因有二：
其一是卷积层学习是低层特征；其二是全连接成学习的是特定的任务的特征。
参考：https://blog.csdn.net/woyaopojie1990/article/details/38536207
Image Annotation图像标注小结

3. 利用边界框注释进行多标签对象识别(区域建议+多示例学习)

–《Exploit Bounding Box Annotations for Multi-label Object Recognition》

Image Annotation图像标注小结利用包围框注释(强标签)对标签视图进行编码，并将其与典型的CNN特征表示(特征视图)结合起来进行多标签对象识别

4.多示例视觉语义嵌入

–《Multi-instance visual-semantic embedding》

提出了一个多实例学习框架来优化隐藏标签到区域映射
（1）图像多标签标注（2）零例学习任务
步骤：
（a）分区（ROI）图像特征提取；
（b）图像特征嵌入；
（c）文本特征嵌入；
（d）由MIE损失层引导的联合嵌入学习。
Image Annotation图像标注小结

5. 深度MIML网络

《Deep MIML Network》

子概念层易于与其他深层模型结合，使Deep MIML能够继承MIML发现输入模式与输出语义标签之间关系的能力
提出了一个3D-子概念层，可以嵌入到深度学习CNN模型里面，后面接两个最大池化层：
(1) 垂直最大池化：产生实例–标签得分层，可以在输入图里面定位实例
(2)水平最大池化：后接一个全连接层(大小与标签的数量相等)，产生预测的结果
Image Annotation图像标注小结可视化结果：

6.不使用候选区域–随机缩放+随机裁剪+类别最大池化+动态加权欧式距离的损失函数

超越候选区域：多标签图像识别的随机裁剪池化
《Beyond Object Proposals: Random Crop Pooling for Multi-Label Image Recognition》

南京理工大学智能媒体分析实验室
网络构成：(1) 随机尺度组件 (2) 随机裁剪组件 (3) 动态加权欧式损失组件
步骤：
(1) 先将图像的最短边调整到512，同时保持长宽比
(2) 在均匀分布[0.5, 1]之间随机取 k 个缩放率
(3) 根据这 k 个缩放率生成 K 个图像 (2) 最后的池化层操作有所不同，没有使用类别最大池化
(4) 在每个图像中，再随机裁剪一个224*224大小的区域

测试阶段与训练阶段有所不同：
(1) 网络结构不同，最后三个全连接层转换为三个卷积层( 7x7, 7x7, 1x1,卷积层参数直接复制前面的网络参数 )
(2) 最后的池化层操作有所不同，没有使用类别最大池化
Image Annotation图像标注小结

7. 通过具有特权信息的完全卷积网络进行多实例多标签学习

《MIML-FCN+: Multi-instance Multi-label Learning via Fully Convolutional Networks with Privileged Information》
loss-FCN：第一个流为训练包建模(与MIML-FCN相)；在 MIML-FCN+训练完后，在测试中只使用 loss-FCN
slack-FCN ：第二个流为特权包建模。第二个流的目标不是学习分类模型，而是建模第一个流的损失==>惩罚PI模型损失和真实损失的差异，并将其作为正则化项添加到等式（5）中；建议使用特权包来建模训练损失，并将其作为一个凸正则化项使用，从而促进SGD兼容的损失和端到端训练；特权信息在test阶段不能获得；
特权包的好处：一方面，松弛FCN模拟了用特权信息对训练包进行分类的困难；另一方面，松弛FCN可以提供一种调整分类误差的方法，避免过度拟合
MIML：特征映射模块 + 分类模块

交替的方式进行优化
对于每个图像，我们使用区域建议网络(RPN)[Faster-RCNN]提取最多500个建议
特征提取网络基本上是带有ROI池层的VGG-16网络，去掉了所有与分类/检测相关的层
包级别的示例：包围框、字幕、描述

Image Annotation图像标注小结
在这篇文章里面，感觉还是先用 Faster-RCNN提取区域建议(去掉了所有与分类/检测相关的层)，然后构建双流结构(两个MIML+FCN)。在加入特权信息之后，改变的是pooling层。[ 这个PI池化层识别出具有> 0.5 IOU的真正的积极建议，并将这些提案的得分池化，以便更好地利用包中的关键实例。对于负面建议，PI池化层仍使用最大池化 ]

Image Annotation图像标注小结

同时，加入 示例间的结构化相关信息，为每个包构建最近邻图(NN graph)

多标签图像识别=多标签图像分类=多标签图像标注

对象建议=区域建议=检测建议

多类分类 VS 多标签分类

1：标签关系

2：将检测的区域建议 作为CNN的输入(数据集不需要 包围框)

3. 利用边界框注释进行多标签对象识别(区域建议+多示例学习)

4.多示例视觉语义嵌入

5. 深度MIML网络

6.不使用候选区域–随机缩放+随机裁剪+类别最大池化+动态加权欧式距离的损失函数

7. 通过具有特权信息的完全卷积网络进行多实例多标签学习

2：将检测的区域建议作为CNN的输入(数据集不需要包围框)