Adversarial PoseNet

论文题目：Adversarial PoseNet: AStructure-aware Convolutional Network for Human

PoseEstimation

出处：ICCV 2017

主要贡献：

1、我们设计了一种新颖的人体姿态估计网络框架，它考虑了人类关节连接性的几何约束。通过将人体的先验知识整合在一起，可以大大减少因遮挡和杂乱的背景而引起的预测错误。即使网络失败了，网络的输出也更像是“人”的预测而不是“机器”的预测。

2、根据我们的最佳知识，我们是第一个使用GAN来利用受限的人姿分布来改善人的姿态估计。我们还设计了一个堆叠的多任务网络，用于预测姿态热图和遮挡热图，以达到更好的效果。

3、在LSP Human Pose和MPII Human Pose数据集评估，性能优异。

Motivation：

以前的方法主要是采用DCNNs对每个身体部分的热图进行回归的策略。这些回归模型显示了学习更好的特征表示的巨大能力。然而，对于重度遮挡的身体部位(尤其是周围人的身体部位)和与身体部位相似的背景，DCNNs可能会难以回归精确的热图。

人类的视觉能够从观察中学习人类形体结构的多样性和无限。即使在极端的遮挡下，我们也可以推断出潜在的姿势，并移除不可信的姿势。

Adversarial PoseNet

算法框架：

G：回归网络作为生成网络G，生成pose热度图和occlusion热度图。

P：判别器作为判别网络，有两部分组成：判别预测的姿态在几何上是否合理的PoseDiscriminator（P），判别对预测姿态的热点图的置信度Confidence Discriminator（C）。

判别器网络的目标不仅仅是区分假的和真实的，而且还将几何约束与模型结合起来。

Adversarial PoseNet

如图所示论文提出的框架，包括姿态生成器G，姿态判别器P和确信度判别器C。①表示G自身的正向和反向传播过程。②表示生成器的梯度被Confidence Discriminator（C）更新。③表示生成器的梯度被PoseDiscriminator (P)更新。

Adversarial PoseNet

G: 生成器是两个Stacked Hourglass结构，输入RGB图像，输出对应的32通道热点图，其中16通道的热点图预测人体的16个关节点，另外16通道预测遮挡的人体部位。每个热点图的确信度得分在[0,1]。

Loss:

Adversarial PoseNet

P：判别器P的作用是从真实的姿态中区分假姿态（姿势不满足约束条件的人体关节）。输入是整张图片、y、z三部分一起作为输入

我们发现通过简单地将0或1设置为样本的groundtruth，网络很难收敛。我们设计了一种新的姿态估计策略。

真实样本的ground truth Preal是一个16 x1单位向量。对于假的样本，如果一个预测的身体部分远离ground truth的真实位置，那么这个姿势在这个图像中的身体结构显然是难以置信的。因此，ground truth Pfake是:

δ是阈值参数和di是预测和ground truth的第i个身体部位的位置的归一化距离。 P中的输出值的范围也是[0,1]。

C：通过之前的方法对ground truth热图和预测热图之间的差异的观察，我们发现由于遮挡和身体重叠，预测的热图往往不是高斯分布的。回顾人类视觉的机制，即使身体部分被遮挡，我们仍然可以自信地定位身体部位。这主要是因为我们已经获得了人体关节的几何形状。为此，我们设计了第二种辅助判别器，称为置信判别器C。

输入是 pose and occlusionheatmaps

在训练C时,真的热图标签为16×1(16是身体部分的数量)单位向量Creal。假(预测)的热图被一个16×1向量cfake作为标签， cfake的数值是对应的置信分数。

最终的目标函数：

在实验中,为了使不同组件的最终目标函数有相同的规模,超参数α= 1/220和β =1/180。

实验：