本文使用IMU辅助单目相机同时估计相机位姿和基于三角形网格(triangular mesh)对物体进行建模。
Localization and Mapping using Instance-specific Mesh Models

问题描述

在已知对物体的观测的前提下,优化相机的位姿,构成物体的角点和网格。代价函数分成两项,语义分割结果的差距和特征点之间的距离: Lmask (s,s^)=ss^1s+s^ss^1Lkps(y,y^)=yy^vis(y^)F2\begin{aligned} \mathcal{L}_{\text {mask }}(s, \hat{s}) &=-\frac{\|s \odot \hat{s}\|_{1}}{\|s+\hat{s}-s \odot \hat{s}\|_{1}} \\ \mathcal{L}_{\mathrm{kps}}(y, \hat{y}) &=\|y-\hat{y} \cdot v i s(\hat{y})\|_{F}^{2} \end{aligned} minC,Ot=1Tl=1Lt(wmask Lmask (slt,Rmask (ct,oπt(l)))+wkps Lkps (ylt,Rkps (ct,oπt(l),Aπt(l))))\begin{aligned} \min _{\mathcal{C}, \mathcal{O}} \sum_{t=1}^{T} \sum_{l=1}^{L_{t}} &\left(w_{\text {mask }} \mathcal{L}_{\text {mask }}\left(s_{l t}, \mathcal{R}_{\text {mask }}\left(c_{t}, o_{\pi_{t}(l)}\right)\right)+w_{\text {kps }} \mathcal{L}_{\text {kps }}\left(y_{l t}, \mathcal{R}_{\text {kps }}\left(c_{t}, o_{\pi_{t}(l)}, A_{\pi_{t}(l)}\right)\right)\right) \end{aligned}

语义分割和对象跟踪

使用深度神经网络对图像进行语义分割,同时在语义分割结果中提取特征。
考虑每一对匹配的特征,在前后帧中,是否归属于相同的语义对象来对对象进行跟踪: Mlm=k=1Kltin(yl,t+1(k),sm,t+1(k))in(ym,t(k),sl,t(k))qlt(k)M_{l m}=\sum_{k=1}^{K_{l t}} i n\left(y_{l, t+1}^{(k)}, s_{m, t+1}^{(k)}\right) \cdot i n\left(y_{m, t}^{(k)}, s_{l, t}^{(k)}\right) \cdot q_{l t}^{(k)}

特征点和语义分割结果投影方程

特征点投影通过相邻帧位姿变换和内参实现,语义分割除了用同样的方法投影三角网格外,还要考虑遮挡,只有最前面的网格会显示出来。

优化过程

从IMU的测量获得位姿变化的初值,然后根据图像进行优化。
再通过Kabsch算法得到物体模型初值之后,通过LM算法对相机位姿和物体模型进行优化。首先固定三角网格优化位姿,然后固定位姿优化三角网格。使用Laplace-Beltrami算子保证三角网格的光滑性。

相关文章:

  • 2021-12-16
  • 2021-04-13
  • 2022-01-08
  • 2021-12-28
  • 2021-10-24
  • 2021-11-26
  • 2021-05-24
猜你喜欢
  • 2021-10-07
  • 2021-11-22
  • 2021-04-17
  • 2021-12-12
  • 2021-07-12
  • 2021-07-04
相关资源
相似解决方案