动机与贡献

这篇文章是基于他们在2017年ICCV上发表的《learning to estimate 3d hand pose from single RGB images》论文基础上,做的进一步改(guan)进(shui), 两篇论文对比,比较大的区别是2019年的工作在输出手部关节点的3D pose基础上,同时给出了mesh的估计结果,同时改进了2017年的关节点检测方案,摒弃了手部分割子网络。

这篇文章认为的目前业界方案存在的问题:

  1. 单目RGB方案仅生成手部关键点的3D位置,不生成mesh,不能完整表达手的3D形态。
  2. 没能解决合成数据训练和真实场景应用之间的domain gap。

工作贡献:

  1. 利用Graph CNN重构手部表面的完整3D面片。
  2. 为了实现全监督训练,构建了包含3D meshes3D poses的大尺度合成数据集。
  3. 提出利用真实数据深度图的弱监督训练方案,解决合成与真实之间的domain gap问题。

结构设计

单张RGB图估计3D手部姿态与形态

Loss设计

Heat-map Loss

LH=j=1JHjHj^22 L_H = \sum_{j=1}^{J} ||H_j - \hat{H_j}||^2_2
J=21, 2D关键点热力图的分辨率为64*64,真值图是由每个2D关节点为中心,4px标准差的2D高斯分布。本质上是MSE Loss。

Mesh Loss

LM=λvLv+λnLn+λeLe+λlLl L_M = \lambda_vL_v + \lambda_nL_n + \lambda_eL_e + \lambda_lL_l
LvL_v是面片顶点的2D/3D loss, LnL_n是面片的法向Loss, LeL_e是组成面片的边loss,LlL_l是Lalacian loss.
疑惑:通过渲染得到的合成数据尚能得到此loss,如果对真实场景做调优,很难获取如此完备的真值。
Lv=i=1Nvi3Dvi^3D22+vi2Dvi2D^22 L_v = \sum_{i=1}^N ||v_i^{3D} - \hat{v_i}^{3D}||_2^2 + ||v_i^{2D} - \hat{v_i^{2D}}||_2^2

Ln=t(i,j)tvi^3Dvj^3D,nt22 L_n = \sum_t\sum_{(i,j)\in t}||\langle\hat{v_i}^{3D} - \hat{v_j}^{3D}, n_t\rangle||_2^2
mesh中第t个三角面片的第i和第j个顶点,这两个顶点构成的向量应与法向量ntn_t正交。
Le=i=1E(ei22ei^22)2 L_e = \sum_{i=1}^{E}(||e_i||_2^2 - ||\hat{e_i}||_2^2)^2
Ll=i=1NδivkN(vi)δk/Bi22 L_l=\sum_{i=1}^N||\delta_i -\sum_{v_k\in N(v_i)}\delta_k/B_i||_2^2
δi=vi3Dvi^3D\delta_i=v_i^{3D} -\hat{v_i}^{3D}N(vi)N(v_i)是顶点viv_i的周围点集合,BiB_i是集合内的顶点数,Laplacian loss的引入防止相邻顶点有相反的offset,保证面片的局部表面平滑性。
在参数配置上,λv=1\lambda_v=1, λn=1\lambda_n=1, λe=1\lambda_e=1, λl=50\lambda_l=50

3D Pose Loss

LJ=j=1Jϕj3Dϕj^3D22 L_J = \sum_{j=1}^J||\phi_j^{3D} - \hat{\phi_j}^{3D}||_2^2

ϕj3D\phi_j^{3D}ϕj^3D\hat{\phi_j}^{3D}分别是3D关节点的真值与估计值。

在网络实际设计时,先分别训练stacked hourglasse网络+heat-map loss, 3D pose regressor + 3D pose loss,得到准确的2D/3D关节点。再利用LfullyL_{fully}端到端训练整体网络(stacked hourglass网络 + residual网络+Graph CNN)用以生成面片。
Lfully=λHLH+λMLM+λJLJ L_{fully} = \lambda_HL_H+\lambda_ML_M+\lambda_JL_J
其中,λH=0.5\lambda_H=0.5, λM=1\lambda_M=1, λJ=1\lambda_J=1

效果

耗时

在1080 GPU上可以跑到19.9ms,大头在backbone上,花了12.6ms,residual network + Graph CNN花了4.7ms,pose regressor花了2.6ms

定量实验结果

3D手部面片重构效果评估

单张RGB图估计3D手部姿态与形态

3D手部Pose估计效果评估

单张RGB图估计3D手部姿态与形态

相关文章:

  • 2022-02-07
  • 2021-12-14
  • 2021-07-19
  • 2021-07-04
  • 2021-10-30
  • 2021-12-31
  • 2021-08-09
猜你喜欢
  • 2022-01-05
  • 2021-04-29
  • 2022-02-07
  • 2022-01-10
  • 2021-08-30
  • 2021-12-03
  • 2021-08-15
相关资源
相似解决方案