单张RGB图估计3D手部姿态与形态

动机与贡献

这篇文章是基于他们在2017年ICCV上发表的《learning to estimate 3d hand pose from single RGB images》论文基础上，做的进一步改（guan）进（shui），两篇论文对比，比较大的区别是2019年的工作在输出手部关节点的3D pose基础上，同时给出了mesh的估计结果，同时改进了2017年的关节点检测方案，摒弃了手部分割子网络。

这篇文章认为的目前业界方案存在的问题：

单目RGB方案仅生成手部关键点的3D位置，不生成mesh，不能完整表达手的3D形态。
没能解决合成数据训练和真实场景应用之间的domain gap。

工作贡献：

利用Graph CNN重构手部表面的完整3D面片。
为了实现全监督训练，构建了包含3D meshes和3D poses的大尺度合成数据集。
提出利用真实数据深度图的弱监督训练方案，解决合成与真实之间的domain gap问题。

结构设计

单张RGB图估计3D手部姿态与形态

Loss设计

Heat-map Loss

$L_H = \sum_{j=1}^{J} ||H_j - \hat{H_j}||^2_2$
J=21, 2D关键点热力图的分辨率为64*64，真值图是由每个2D关节点为中心，4px标准差的2D高斯分布。本质上是MSE Loss。

Mesh Loss

$L_M = \lambda_vL_v + \lambda_nL_n + \lambda_eL_e + \lambda_lL_l$
$L_v$ 是面片顶点的2D/3D loss, $L_n$ 是面片的法向Loss， $L_e$ 是组成面片的边loss， $L_l$ 是Lalacian loss.
疑惑：通过渲染得到的合成数据尚能得到此loss，如果对真实场景做调优，很难获取如此完备的真值。
$L_v = \sum_{i=1}^N ||v_i^{3D} - \hat{v_i}^{3D}||_2^2 + ||v_i^{2D} - \hat{v_i^{2D}}||_2^2$

$L_n = \sum_t\sum_{(i,j)\in t}||\langle\hat{v_i}^{3D} - \hat{v_j}^{3D}, n_t\rangle||_2^2$
mesh中第t个三角面片的第i和第j个顶点，这两个顶点构成的向量应与法向量 $n_t$ 正交。
$L_e = \sum_{i=1}^{E}(||e_i||_2^2 - ||\hat{e_i}||_2^2)^2$
$L_l=\sum_{i=1}^N||\delta_i -\sum_{v_k\in N(v_i)}\delta_k/B_i||_2^2$
$\delta_i=v_i^{3D} -\hat{v_i}^{3D}$ ， $N(v_i)$ 是顶点 $v_i$ 的周围点集合， $B_i$ 是集合内的顶点数，Laplacian loss的引入防止相邻顶点有相反的offset，保证面片的局部表面平滑性。
在参数配置上， $\lambda_v=1$ , $\lambda_n=1$ , $\lambda_e=1$ , $\lambda_l=50$ 。

3D Pose Loss

$L_J = \sum_{j=1}^J||\phi_j^{3D} - \hat{\phi_j}^{3D}||_2^2$

$\phi_j^{3D}$ 和 $\hat{\phi_j}^{3D}$ 分别是3D关节点的真值与估计值。

在网络实际设计时，先分别训练stacked hourglasse网络+heat-map loss, 3D pose regressor + 3D pose loss，得到准确的2D/3D关节点。再利用 $L_{fully}$ 端到端训练整体网络(stacked hourglass网络 + residual网络+Graph CNN)用以生成面片。
$L_{fully} = \lambda_HL_H+\lambda_ML_M+\lambda_JL_J$
其中， $\lambda_H=0.5$ , $\lambda_M=1$ , $\lambda_J=1$

效果

耗时

在1080 GPU上可以跑到19.9ms，大头在backbone上，花了12.6ms，residual network + Graph CNN花了4.7ms，pose regressor花了2.6ms

单张RGB图估计3D手部姿态与形态

目录

动机与贡献

结构设计

Loss设计

Heat-map Loss

Mesh Loss

3D Pose Loss

效果

耗时

定量实验结果

3D手部面片重构效果评估

3D手部Pose估计效果评估