论文笔记：3D indoor scene modeling from RGB-D data

玩乐：
论文笔记：3D indoor scene modeling from RGB-D data
论文链接：http://cg.cs.tsinghua.edu.cn/papers/CVMJ-2015-scene-moddeling.pdf

3D indoor scene modeling from RGB-D data: a survey K. Chen, YK. Lai and SM. Hu. Computational Visual Media 2015.

一篇来自清华大学的CVMJ,介绍主流的RGB-D消费级相机场景建模技术

Abstract:
消费级RGB-D图像质量较差，深度缺失严重，社内场景复杂

Intro:

相比较与室外场景，室内场景往往3D结构更加复杂
消费级深度相机获取到的信息往往带有噪声和畸变

RGB-D data：

Light detection and ranging (LiDAR）是目前获得RBD-D data的主流方法
LiDAR分为scannerless和scanning两种
scannerless LiDAR 典型的是ToF相机
RGB-D数据比较典型的是RGB-D image 和 colored point clouds

Public datasets：

1、Cornell RGB-D Dataset
包含了24个办公室场景和28个家庭场景，RGB-D图像已经转化成点云
2、Washington RGB-D Scenes Dataset
包含了14种室内场景，和9种物品，每个场景都是由patch volume mapping 从RGB-D图片帧建立的点云。物品和场景标签在点云中给出
3、NYU Depth Dataset
包含了528个不同的室内场景，数据集不包含相机位姿信息，因为它主要用来做单帧的分割和识别，如果要获得深度信息，需要从原始的RGB-D数据流估计相机位姿
4、SUN 3D Dataset
包含415个RGB-D图像序列，是用kinect从254个不同的室内场景获取的，标签在整个序列都存在，每一帧的相机位姿也有提供，是目前最大的室内场景RGB-D数据集
5、UZH Dataset
这个数据集是专门用来建模用的，它包含了40个由Faro LiDAR scanner 扫描得到的点云，对比消费级kinect精度高很多

Open Source Libraries：
1、PCL
filtering，feature estimation，surface reconstruction，registration,model fitting and segmentation
2、MRPT
processing RGB-D data with a focus on robotic applications including SLAM

Modeling techniques:
1、Geometric Modeling
RGB-D Images—>a single point cloud or a volumetric representation—>mesh-based 3D models
论文笔记：3D indoor scene modeling from RGB-D data
几何建模流程一般分为两个部分：registration 和 fusion
对于registration: iterative closest points(ICP)和SLAM以及它们的延伸，可以提供很好的解决办法
对于fusion:最广泛认可的是Curless and Levoy 的使用signed distance functions(SDFs)的体积技术，可以稳定的迭代每一帧

主流方法：
Kinect Fusion System：使用移动的kinect相机对细节进行扫描，从而创造模型。区别于传统的EKF(Entended Kalman Filter)(每一帧对上一帧进行修正）,kinect fusion 利用每一帧对现在的整个场景进行修正，这个方法对噪声具有很好的抑制作用，可以支持实时应用
RGB-D SLAM：对齐的RGB-D图像可以提供很精准的相机位姿估计
论文笔记：3D indoor scene modeling from RGB-D data
(1)sparse mapping(quickly provide a rough structure of the target scene)
-Mainly rely on distinctive feature descriptors(SIFT,SURF,ORB)
-Cannot deal with textureless areas
RANSAC
后来采用Random Sample Consensus 随机采样去降低错误匹配概率，对outliers具有一定鲁棒性，但是在复杂环境中还是会产生误匹配，实际project过程中，要采用措施矫正误匹配点才可以顺利建图
(2)dense depth streams
在稠密深度信息下，帧到帧的ICP算法很容易计算相机位姿，所以稠密匹配系统目前提供了消费级深度相机自动鲁棒重建的途径

Semantic modeling
语义建模，一定程度上，语义建模对室内重建做了分割，描述了室内场景的内容，而几何建模把整个室内看成了一个整体，这里也对几何建模提供了一个优化思路，比如如果我们知道该物品的语义是desk，那么我们很容易就可以对几何建模里面属于desk的部分进行矫正，比如说桌子面一定是一个plane，桌子腿是一个cube，甚至这部分可以用深度学习先进行语义分割和识别，然后通过某种方式反馈回几何建模场景进行修正，事实上，在某些高水平的应用中会不惜牺牲部分几何精度，去尽量满足语义上的正确表达。
语义建模主要目的是把室内整体场景降解为具体的物体水平。实际上，语义建模相对于几何建模来说有很多优势，第一，产生了一个从语义上有意义的表达；第二，建模过程更为简单相比较于需要额外获取数据的几何建模来说；第三，只需要稀疏的RGB-D 信息，因为语义建模只需要物体的大致轮廓即可
论文笔记：3D indoor scene modeling from RGB-D data
然而，语义建模最难的部分就是对室内的场景做语义分割，分成不同的semantic region
一方面，要label物体就必须把物体从复杂环境中分割出来
另一方面，确定物体连接部分是不是属于物体又是正确识别物体的重要问题
所以好的方法是加上经验知识，根据使用框架的不同，语义建模分为以下两种：
(1) Primitive-based methods
大多数的物体都可以被分成基础几何体，比如说圆柱、平面、球体、棱形
论文笔记：3D indoor scene modeling from RGB-D data
找到组成物体最适合的基础几何体是该方法的核心，换句话说要把inliers 和 outliers 区分开
目前先进的算法是RANSAC，但是他只能估计一个模型，比如说单个基础几何体
所以，当有多个模型出现时，霍夫变换可以在参数空间voting得到最终的几何形状，霍夫变换的主要缺点是时间复杂度随着输入数据和参数个数的增加急剧变大，所以如果要估计一个非常复杂的模型，霍夫变化很耗时间
Kim提出了一种监督的方法，分为离线和在线两个阶段，在离线阶段，每个物体被预扫描，并且被表达成一系列基础体(包含必要的内部连接信息),在在线阶段，整个场景被分割，每个物体与基础体作匹配，在这基础上有变化的几何体也可以匹配基本体作几何变换之后的实体。
Mattausch 之后提出了一种无监督的方法，使用高精度RGB-D图片建模，也是检测重复的物体，不过这里的匹配不是几何上的匹配，而是语义上的匹配，通过学习方法，使得该方法具有鲁棒性

(2) Model-based methods
primitive-based methods 有硬伤，因为在室内场景，很多东西都只出现一次，还有键盘这种东西是很难通过重复基本几何体建模的，所以primitive-based methods 只能提供目标场景的近似
如果我们已经有了场景里某种物体的模型，那么结果又会怎样，实际上我们可以将实际物体与语义数据库进行匹配，得到该物体的最佳描述
论文笔记：3D indoor scene modeling from RGB-D data
该方法目前最大的瓶颈是3D数据库的质量、多样性