本文使用IMU辅助单目相机同时估计相机位姿和基于三角形网格(triangular mesh)对物体进行建模。

问题描述
在已知对物体的观测的前提下,优化相机的位姿,构成物体的角点和网格。代价函数分成两项,语义分割结果的差距和特征点之间的距离: Lmask (s,s^)Lkps(y,y^)=−∥s+s^−s⊙s^∥1∥s⊙s^∥1=∥y−y^⋅vis(y^)∥F2 C,Omint=1∑Tl=1∑Lt(wmask Lmask (slt,Rmask (ct,oπt(l)))+wkps Lkps (ylt,Rkps (ct,oπt(l),Aπt(l))))
语义分割和对象跟踪
使用深度神经网络对图像进行语义分割,同时在语义分割结果中提取特征。
考虑每一对匹配的特征,在前后帧中,是否归属于相同的语义对象来对对象进行跟踪: Mlm=k=1∑Kltin(yl,t+1(k),sm,t+1(k))⋅in(ym,t(k),sl,t(k))⋅qlt(k)
特征点和语义分割结果投影方程
特征点投影通过相邻帧位姿变换和内参实现,语义分割除了用同样的方法投影三角网格外,还要考虑遮挡,只有最前面的网格会显示出来。
优化过程
从IMU的测量获得位姿变化的初值,然后根据图像进行优化。
再通过Kabsch算法得到物体模型初值之后,通过LM算法对相机位姿和物体模型进行优化。首先固定三角网格优化位姿,然后固定位姿优化三角网格。使用Laplace-Beltrami算子保证三角网格的光滑性。