(16) A Coarse-Fine NetWork for Keypoint Location （CFN）

A Coarse-Fine NetWork for Keypoint Location（精读）

ICCV 2017

reading time : 2019/10/09

paper : http://openaccess.thecvf.com/content_ICCV_2017/papers/Huang_A_Coarse-Fine_Network_ICCV_2017_paper.pdf

(16) A Coarse-Fine NetWork for Keypoint Location （CFN）

我们常用的关键点定位通常使用从ground truth关键点位置生成的置信图作为监督信号。但是，一些关键点可以很精确且很容易的定位，大多数由于外观模糊而难以定位。因此，使用严格的监督不能检测到很难精确定位的关键点。为了处理这个问题，作者提出了由一些粗检测器分支（每一个都建立在CNN的特征层之上），一个细检测器分支（建立在多个特征层之上）组成。我们通过指定的label map去监督每一个分支，以说明一定的监督严格程度。所有分支以产生最终准确的关键点位置。

论文使用有着严格等级的multi-level的label maps监督这些检测器分支，其通过这些分支的定位能力进行设置。

Network Architecture

在卷积网络中，步长和感受野随着深度的增加而增加。因此，更深的层编码更丰富的上下文信息来定位模糊的点，但是以降低定位精度为代价。inception（4a-4c）层的步长是16，对应的感受野各自是107x107,139x139 和 171x171。对于224x224的输入图像，深层的感受野太大，可能会对相邻的位置的部件导致模糊的检测。将输入分辨率改为448x448。

论文使用的是目标检测“overlap”的思想,利用候选部分区域和ground-truth之间的重叠。例如，Inception (4a) feature map的大小为28×28，这意味着大小为107×107的候选区域有784个，这些候选区域均匀地分布在输入图像上。

我们通过计算候选部件区域和虚拟的ground-truth（应该是有heatmap映射到原图像上的区域）之间的相交部分来为检测器设置label maps。令 (16) A Coarse-Fine NetWork for Keypoint Location （CFN）代表部件类型。D表示组检测器分支的数目。给定一个第d分支的输出的feature map大小是W x H,步长是s，offset padding 是p，感受野是r。输出feature map上面的每一个位置（w,h）对应于一个感受野 (16) A Coarse-Fine NetWork for Keypoint Location （CFN），其是以（w*,h*）（在输入图上）为中心。（w*,h*）=（w,h）x s - (p - 1) + r/2。对于一个在（i,j）处的k类型关键点的注释，我们定义一个在（i,j）为中心的大小为rxr的ground-truth区域。

重建第d个检测器分支的目标相应图（target response map） (16) A Coarse-Fine NetWork for Keypoint Location （CFN） ,我们设置,如果候选区域与虚拟的ground-truth区域的IOU > 0.5，否则设为背景。对于细检测器，我们生成严格的监督图，通过设置，如果,否则。控制严格的阈值，ref_length是目标bounding box的最长边。

Learning and Inference

我们使用不同深度和监督的全卷积架构来构建多样化的部分检测器。为了进行有效的推理，我们通过最小化多任务损失来同时学习所有共享基卷积层的检测网络。

Learning : 令 (16) A Coarse-Fine NetWork for Keypoint Location （CFN）作为第d个检测器分支的最后的特征图，尺寸是WxHxC。我们添加一个通道建模背景类。我们使用softmax function在最后特征图的（w,h,k）位置计算预测分值。

所以训练图片在每一个分支的loss： (16) A Coarse-Fine NetWork for Keypoint Location （CFN）。

所以训练粗细检测器联合的多任务loss： (16) A Coarse-Fine NetWork for Keypoint Location （CFN）

Inference : 对于推理阶段的每一个检测器，我们首先对每一个候选区域获得预测分数，然后计算每一个部件的预测图 (16) A Coarse-Fine NetWork for Keypoint Location （CFN） :

(16) A Coarse-Fine NetWork for Keypoint Location （CFN）

由于CNNs中的重叠感受野机制，最准确的预测在预测的位置为中心的区域内。因此，我们通过将预测图与二维高斯核函数卷积得到一个“模糊”预测。在第k个通道中选择具有最大值的位置作为唯一的预测 (16) A Coarse-Fine NetWork for Keypoint Location （CFN）。

Unified detection : 我们的系统同时学习四个检测器，并将它们的输出统一到最终的预测中。探测器检测目标部件的能力各不相同。由于接收到来自多层的叠加特征，精细探测器倾向于输出准确可靠的预测。然而，我们观察到，它可能会错过一些遮挡部分的预测，而这些可以被粗检测器检测到。为了尽可能精确和完整地预测一组零件，我们采用粗、细检测器作为辅助预测器的策略，将粗、细检测器的输出结果结合起来。

(16) A Coarse-Fine NetWork for Keypoint Location （CFN）