多标签图像识别=多标签图像分类=多标签图像标注

Image Annotation图像标注小结

对象建议=区域建议=检测建议

Image Annotation图像标注小结

多类分类 VS 多标签分类

参考链接:https://blog.csdn.net/uncle_ll/article/details/82778750
参考链接:https://blog.csdn.net/ghui23/article/details/51225450
参考链接:http://blog.chinaunix.net/uid-23028928-id-2567754.html
Image Annotation图像标注小结Image Annotation图像标注小结

多类分类:属于多类别中哪一类的问题,即一个样本只能属于一个类
意味着候选集是一个多分类,而不仅仅是二分类,不是是与否的问题,而是属于多类中哪一类的问题。
一个样本属于且只属于多个分类中的一个,一个样本只能属于一个类,不同类之间是互斥的。
举例而言,MNIST数据集,常用的数字手写体识别数据集,它的标签是一个多分类的过程,要将数字手写体识别为0~9中的某一个数字

多标签分类:一个样本的标签不仅仅局限于一个类别,可以具有多个类别不同类之间是有关联的
比如一件衣服,其具有的特征类别有长袖、蕾丝等属性等,这两个属性标签不是互斥的,而是有关联的。

准确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。
不妨看看这些指标的定义先:
准确率 = 正确识别的个体总数 / 识别出的个体总数
召回率 = 正确识别的个体总数 / 测试集中存在的个体总数
F1值 = 准确率 * 召回率 * 2 / (准确率 + 召回率)

不妨举这样一个例子:
某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。
Seaeagle撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:

正确率 = 700 / (700 + 200 + 100) = 70%
召回率 = 700 / 1400 = 50%
F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
不妨看看如果Seaeagle把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化:
正确率 = 1400 / (1400 + 300 + 300) = 70%
召回率 = 1400 / 1400 = 100%
F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%
由此可见,
正确率,评估捕获的成果中目标成果所占得比例;
召回率,顾名思义,就是从关注领域中,召回目标类别的比例;
而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。
***************************************************************************************88

Image Annotation图像标注小结

1:标签关系

《Learning Structured Inference Neural Networks with Label Relations》

2016–黄鹤翔–邓志伟–学习具有标签关系的结构化推理神经网络
标签之间是有一定关系的;标签之间的关系可以形成一个复杂的网络;可以形成不同层次的解释来表示这样的图像
Image Annotation图像标注小结
模型的要求包括:(1)能够对标签-标签关系(如正相关或负相关)建模;(2)尊重从WordNet等源获得的多个概念层;(3)处理部分观察到的标签数据(给定此图像的准确标签子集,推断出剩余的缺失标签)

参考RNN结构,构建的模型中 连接相邻的时间步t来反映层间标签关系,同时在每个时间步t中捕获层内关系

论文首先描述了一个自顶向下推理模型(学习并建立inter-layer层间关系与intra-layer层内关系),然后给出了一个双向推理模型(建立双向推理模型更有意义,因为概念层同样与两个相连的层相关),最后提出了我们的结构化推理神经网络SINN
Image Annotation图像标注小结

2:将检测的区域建议 作为CNN的输入(数据集不需要 包围框)

2014–《CNN: Single-label to Multi-label》
2016–《HCP: A Flexible CNN Framework for Multi-Label Image Classification》
论文2014 是 论文2016的详细版本

F1:以任意数量的对象片段假设作为输入,然后将共享的CNN与每个假设相连。最后,将不同假设的CNN输出结果用 交叉假设最大池化 进行聚合,得到最终的多标签预测
F2:由于对象假设通常具有较高的客观置信度,这意味着它们更可能包含某些语义对象,所以在裁剪和规范化之后,错误对齐和遮挡都可以稍微减轻。
F3:通过将多标签问题放宽为多个单标签任务,并减少错误对齐和遮挡的问题,可以更好地利用CNN模型的识别能力
Image Annotation图像标注小结首先根据 假设提取方法 生成给定图像的输入假设。
然后,对于每个假设,共享CNN都可以得到一个C维预测结果。
最后,我们利用交叉假设最大池操作softmax来生成最终的预测。
如图4所示,第二行和第三行分别表示共享CNN生成的假设和相应的输出。

Image Annotation图像标注小结

单标签图像的预训练模型 ----> 多标签图像的模型(使用的是整个图像 作为CNN的输入)
注意三点:
A、直接resize到256*256,没有数据增强
B、误差的计算–平方误差损失函数 被使用
C、参数的初始化:前面七层采用预训练的参数,第八层采用均值为0,方差为0.01的高斯随机初始化;卷积层的学习率、前两层的全连接和最后一层全连接的学习率分别为:0.001、0.002和0.01
之所有选用不同的学习率,原因有二:
其一是卷积层学习是低层特征;其二是全连接成学习的是特定的任务的特征。
参考https://blog.csdn.net/woyaopojie1990/article/details/38536207
Image Annotation图像标注小结

3. 利用边界框注释进行多标签对象识别(区域建议+多示例学习)

–《Exploit Bounding Box Annotations for Multi-label Object Recognition》

Image Annotation图像标注小结利用包围框注释(强标签)对标签视图进行编码,并将其与典型的CNN特征表示(特征视图)结合起来进行多标签对象识别

4.多示例视觉语义嵌入

–《Multi-instance visual-semantic embedding》

提出了一个多实例学习框架来优化隐藏标签到区域映射
(1)图像多标签标注 (2)零例学习任务
步骤:
(a)分区(ROI)图像特征提取;
(b)图像特征嵌入;
(c)文本特征嵌入;
(d)由MIE损失层引导的联合嵌入学习。
Image Annotation图像标注小结

5. 深度MIML网络

《Deep MIML Network》

子概念层易于与其他深层模型结合,使Deep MIML能够继承MIML发现输入模式与输出语义标签之间关系的能力
提出了一个3D-子概念层,可以嵌入到深度学习CNN模型里面,后面接两个最大池化层:
(1) 垂直最大池化:产生 实例–标签得分层,可以在输入图里面定位实例
(2)水平最大池化:后接一个全连接层(大小与标签的数量相等),产生预测的结果
Image Annotation图像标注小结可视化结果:
Image Annotation图像标注小结

6.不使用候选区域–随机缩放+随机裁剪+类别最大池化+动态加权欧式距离的损失函数

超越候选区域:多标签图像识别的随机裁剪池化
《Beyond Object Proposals: Random Crop Pooling for Multi-Label Image Recognition》

南京理工大学智能媒体分析实验室
网络构成:(1) 随机尺度组件 (2) 随机裁剪组件 (3) 动态加权欧式损失组件
步骤:
(1) 先将图像的最短边调整到512,同时保持长宽比
(2) 在均匀分布[0.5, 1]之间随机取 k 个缩放率
(3) 根据这 k 个缩放率 生成 K 个图像 (2) 最后的池化层操作有所不同,没有使用 类别最大池化
(4) 在每个图像中,再随机裁剪一个224*224大小的区域

测试阶段与训练阶段有所不同:
(1) 网络结构不同,最后三个全连接层转换为三个卷积层( 7x7, 7x7, 1x1,卷积层参数直接复制 前面的网络参数 )
(2) 最后的池化层操作有所不同,没有使用 类别最大池化
Image Annotation图像标注小结

7. 通过具有特权信息的完全卷积网络进行多实例多标签学习

《MIML-FCN+: Multi-instance Multi-label Learning via Fully Convolutional Networks with Privileged Information》
loss-FCN: 第一个流为训练包建模(与MIML-FCN相);在 MIML-FCN+训练完后,在测试中 只使用 loss-FCN
slack-FCN :第二个流为特权包建模。第二个流的目标不是学习分类模型,而是建模第一个流的损失==>惩罚PI模型损失和真实损失的差异,并将其作为正则化项添加到等式(5)中;建议使用特权包来建模训练损失,并将其作为一个凸正则化项使用,从而促进SGD兼容的损失和端到端训练;特权信息在test阶段不能获得;
特权包的好处:一方面,松弛FCN模拟了用特权信息对训练包进行分类的困难;另一方面,松弛FCN可以提供一种调整分类误差的方法,避免过度拟合
MIML: 特征映射模块 + 分类模块

交替的方式进行优化
对于每个图像,我们使用区域建议网络(RPN)[Faster-RCNN]提取最多500个建议
特征提取网络基本上是带有ROI池层的VGG-16网络,去掉了所有与分类/检测相关的层
包级别的示例:包围框、字幕、描述

Image Annotation图像标注小结
在这篇文章里面,感觉还是先用 Faster-RCNN提取区域建议(去掉了所有与分类/检测相关的层),然后构建双流结构(两个MIML+FCN)。在加入特权信息之后,改变的是pooling层。[ 这个PI池化层识别出具有> 0.5 IOU的真正的积极建议,并将这些提案的得分池化,以便更好地利用包中的关键实例。对于负面建议,PI池化层仍使用最大池化 ]

Image Annotation图像标注小结

同时,加入 示例间的结构化相关信息,为每个包构建最近邻图(NN graph)

相关文章:

  • 2022-12-23
  • 2021-11-23
  • 2022-02-08
  • 2021-10-24
  • 2021-12-31
  • 2021-09-29
  • 2021-12-15
  • 2022-02-11
猜你喜欢
  • 2021-05-11
  • 2021-08-10
  • 2021-05-12
  • 2022-12-23
  • 2021-12-31
  • 2021-12-31
  • 2022-01-10
相关资源
相似解决方案