Single-Network Whole-Body Pose Estimation
ICCV 2019
paper : https://arxiv.org/pdf/1909.13423.pdf
github : https://github.com/CMU-Perceptual-Computing-Lab/
论文首次实现一个网络完成整个人体的姿态估计(人脸,人体姿态,手部、足部姿态估计)。
之前完成这个任务的是OpenPose,它遵循一个多阶段的方法。首先,从一个输入图像以自底向上的方式获取所有的身体姿势,然后为每一个检测到的人附加的脸和手的关键点检测器。他是一个(multi-network的方式)。(作者认为:1、存在如果人体部分可见,身体检测失败的情况。2、运行时间)
Single-Network Whole-Body Pose Estimation面临的问题:
- 手足和人体之间的尺度差异,前者需要大的感受野学习人体之间复杂的交互(遮挡、接触、肢体关节),后者需要更高的图片分辨率。
- 全身标注的数据集不存在。
- 其次,单网络模型的架构设计必须不同于最先进的关键点探测器,以提供高分辨率和更大的接受域
LOSS:
每一个像素p,在置信图(c)、PAF通道(f)上的loss,如下,,
代表ground-truth 的 map和field。
论文处理的主要问题:
1、Balanced dataset-based probability ratio
每个可用的数据集只包含关键字子集的注释。为了克服组合数据集的不足,采用Cao等人的single-network body-foot detector
的probability ratio思想,从人体数据集和体足数据集训练。图片batch从每个可获得的数据集随机提取,未标记的关键点相关的置信度图和PAF通道的损失的二进制。从下一个有标注的数据集d挑选的概率比
根据数据集的图片的数量。这个在body-foot中或许可以获得robust的模型,但是在全身检测中,可能不会收敛。
2、Dataset-based augmentation
上图揭示了三种数据集的差异。为了解决这个问题,每个关键点集的扩展参数都是不同的。在数据增强时,人脸数据集的人脸最小尺度要降低。 手部的尺寸要增大。
3、overfitting
论文在一些验证集上观察到很大程度的过拟合,特别是在面部和实验室记录的数据集上。很大程度由于造成的,因此,从人脸和实验室记录的数据集中选择一批数据的概率比必须进一步降低。根据经验,对数据集之间的概率比进行了调整,使得每个数据集的验证精度以相同的速度收敛。
4、High false positive rate
面部、手部和脚部关键点的假阳性率较高,在各自的置信图和PAF通道上产生“重影”效应。从视觉上看,这意味着这些通道在不包含人员的区域输出一个非零值。所以加入了COCO数据集(不包含任何人的)训练。
5、Further refinement
面部和手部数据集并不一定要注释每张图片中出现的所有人。我们使用Mask R-CNN掩盖图像的区域与非标记的人。此外,人脸和手关键点探测器的像素定位精度较低。为了对其进行适当的改进,我们减小了高斯分布的半径来生成其置信图通道groundtruth
6、Shallow whole-body detector
7、Improved network architecture
它必须保持一个大的接受领域,以准确的身体检测,但也提供高分辨率的地图,为精确的面部和手部关键点检测