论文题目:Adversarial PoseNet: AStructure-aware Convolutional Network for Human

PoseEstimation

出处:ICCV 2017

 

主要贡献:

1、我们设计了一种新颖的人体姿态估计网络框架,它考虑了人类关节连接性的几何约束。通过将人体的先验知识整合在一起,可以大大减少因遮挡和杂乱的背景而引起的预测错误。即使网络失败了,网络的输出也更像是“人”的预测而不是“机器”的预测。

2、根据我们的最佳知识,我们是第一个使用GAN来利用受限的人姿分布来改善人的姿态估计。我们还设计了一个堆叠的多任务网络,用于预测姿态热图和遮挡热图,以达到更好的效果。

3、在LSP Human Pose和MPII Human Pose数据集评估,性能优异。

 

Motivation

以前的方法主要是采用DCNNs对每个身体部分的热图进行回归的策略。这些回归模型显示了学习更好的特征表示的巨大能力。然而,对于重度遮挡的身体部位(尤其是周围人的身体部位)和与身体部位相似的背景,DCNNs可能会难以回归精确的热图。

人类的视觉能够从观察中学习人类形体结构的多样性和无限。即使在极端的遮挡下,我们也可以推断出潜在的姿势,并移除不可信的姿势。

Adversarial PoseNet

算法框架:

G:回归网络作为生成网络G,生成pose热度图和occlusion热度图。

P:判别器作为判别网络,有两部分组成:判别预测的姿态在几何上是否合理的PoseDiscriminator(P),判别对预测姿态的热点图的置信度Confidence Discriminator(C)。

判别器网络的目标不仅仅是区分假的和真实的,而且还将几何约束与模型结合起来。

 Adversarial PoseNet

如图所示论文提出的框架,包括姿态生成器G,姿态判别器P和确信度判别器C。①表示G自身的正向和反向传播过程。②表示生成器的梯度被Confidence Discriminator(C)更新。③表示生成器的梯度被PoseDiscriminator (P)更新。

Adversarial PoseNet

G: 生成器是两个Stacked Hourglass结构,输入RGB图像,输出对应的32通道热点图,其中16通道的热点图预测人体的16个关节点,另外16通道预测遮挡的人体部位。每个热点图的确信度得分在[0,1]。

       Loss:

Adversarial PoseNet

P:判别器P的作用是从真实的姿态中区分假姿态(姿势不满足约束条件的人体关节)。输入是整张图片、y、z三部分一起作为输入

我们发现通过简单地将0或1设置为样本的groundtruth,网络很难收敛。我们设计了一种新的姿态估计策略。

真实样本的ground truth Preal是一个16 x1单位向量。 对于假的样本,如果一个预测的身体部分远离ground truth的真实位置,那么这个姿势在这个图像中的身体结构显然是难以置信的。 因此,ground truth Pfake是:

δ是阈值参数和di是预测和ground truth的第i个身体部位的位置的归一化距离。 P中的输出值的范围也是[0,1]。

 

C:通过之前的方法对ground truth热图和预测热图之间的差异的观察,我们发现由于遮挡和身体重叠,预测的热图往往不是高斯分布的。回顾人类视觉的机制,即使身体部分被遮挡,我们仍然可以自信地定位身体部位。这主要是因为我们已经获得了人体关节的几何形状。为此,我们设计了第二种辅助判别器,称为置信判别器C。

输入是 pose and occlusionheatmaps

在训练C时,真的热图标签为16×1(16是身体部分的数量)单位向量Creal。 假(预测)的热图被一个16×1向量cfake作为标签, cfake的数值是对应的置信分数。

 

最终的目标函数:

在实验中,为了使不同组件的最终目标函数有相同的规模,超参数α= 1/220和β =1/180。

 

 

实验:


相关文章:

  • 2021-06-27
  • 2021-07-15
  • 2022-12-23
  • 2021-09-14
  • 2021-12-03
  • 2021-08-20
猜你喜欢
  • 2021-05-11
  • 2021-08-18
  • 2021-09-14
  • 2022-01-10
  • 2021-06-15
  • 2021-12-10
相关资源
相似解决方案