Localization and Mapping using Instance-specific Mesh Models

本文使用IMU辅助单目相机同时估计相机位姿和基于三角形网格（triangular mesh）对物体进行建模。
Localization and Mapping using Instance-specific Mesh Models

问题描述

在已知对物体的观测的前提下，优化相机的位姿，构成物体的角点和网格。代价函数分成两项，语义分割结果的差距和特征点之间的距离： $\begin{aligned} \mathcal{L}_{\text {mask }}(s, \hat{s}) &=-\frac{\|s \odot \hat{s}\|_{1}}{\|s+\hat{s}-s \odot \hat{s}\|_{1}} \\ \mathcal{L}_{\mathrm{kps}}(y, \hat{y}) &=\|y-\hat{y} \cdot v i s(\hat{y})\|_{F}^{2} \end{aligned}$ $\begin{aligned} \min _{\mathcal{C}, \mathcal{O}} \sum_{t=1}^{T} \sum_{l=1}^{L_{t}} &\left(w_{\text {mask }} \mathcal{L}_{\text {mask }}\left(s_{l t}, \mathcal{R}_{\text {mask }}\left(c_{t}, o_{\pi_{t}(l)}\right)\right)+w_{\text {kps }} \mathcal{L}_{\text {kps }}\left(y_{l t}, \mathcal{R}_{\text {kps }}\left(c_{t}, o_{\pi_{t}(l)}, A_{\pi_{t}(l)}\right)\right)\right) \end{aligned}$

语义分割和对象跟踪

使用深度神经网络对图像进行语义分割，同时在语义分割结果中提取特征。
考虑每一对匹配的特征，在前后帧中，是否归属于相同的语义对象来对对象进行跟踪： $M_{l m}=\sum_{k=1}^{K_{l t}} i n\left(y_{l, t+1}^{(k)}, s_{m, t+1}^{(k)}\right) \cdot i n\left(y_{m, t}^{(k)}, s_{l, t}^{(k)}\right) \cdot q_{l t}^{(k)}$

特征点和语义分割结果投影方程

特征点投影通过相邻帧位姿变换和内参实现，语义分割除了用同样的方法投影三角网格外，还要考虑遮挡，只有最前面的网格会显示出来。

优化过程

从IMU的测量获得位姿变化的初值，然后根据图像进行优化。
再通过Kabsch算法得到物体模型初值之后，通过LM算法对相机位姿和物体模型进行优化。首先固定三角网格优化位姿，然后固定位姿优化三角网格。使用Laplace-Beltrami算子保证三角网格的光滑性。