摘要
来自局部点云的3D形状完成是计算机视觉和计算机图形学中的一个基本问题。 最近的方法可能被描述为基于数据驱动或基于学习的方法。 数据驱动的方法依赖于形状模型,其参数已针对观察进行了优化。 相比之下,基于学习的方法避免了昂贵的优化步骤,而是使用深度神经网络从不完整的观测值直接预测完整的形状。 但是,需要全面的监督,而这在实践中通常是不可用的。 在这项工作中,我们提出了一种基于弱监督学习的3D形状完成方法,该方法既不需要慢速优化也不需要直接监督。 虽然我们还学习了形状先验的合成数据,但使用深层神经网络进行了折旧化(即学习)最大似然拟合,从而获得了有效的形状完成效果而又不牺牲准确性。 在ShapeNet [5]和KITTI [18]上解决汽车的3D形状完成问题,我们证明了拟议的摊销最大似然方法能够与完全监督的基线和最新的数据驱动方法相竞争 明显更快。 在ModelNet [49]上,我们另外显示了该方法也可以概括为其他对象类别。
1.Introduction
3D形状感知是人类[35,36]和计算机视觉[17]的长期存在的问题。 在这两个学科中,大部分工作都集中在3D重建上,例如,从一个或多个视图重建对象或场景,这是一个固有的不适定的逆问题,其中形状,颜色,纹理和光照的许多配置可能导致 非常相似的图像[17]。 人类和计算机视觉都通过对人类感知3D形状所使用的线索和约束的见解而关联起来。 受人类视觉结果的启发[35,36],这些先验通常通过明确的假设内置到3D重建pipline中。但是,最近,借助深度学习的成功,研究人员开始从数据中学习形状模型。 主要使用生成模型来学习如何生成,操纵和推理3D形状,例如[4,20,41,48,49],从而为各种各样的问题提供了许多有趣的可能性。
在本文中,我们关注于基于稀疏和嘈杂的3D点观察来推断和完成3D形状的问题,如图1所示。当仅提供单个对象的单个视图或对象的大部分时,就会出现此问题。 例如在自动驾驶应用中被遮挡。 现有的完成形状的方法可以大致分为数据驱动和基于学习的方法。前者通常依赖于学习的形状先验,并将形状完成制定为对应(较低维)潜在空间上的优化问题.这些方法在真实数据(例如,KITTI)[18]上已展示出令人印象深刻的性能。 相比之下,基于学习的方法采用完全监督的设置,以便直接学习合成数据上的形状完成[9,15,37,39,41,42]。 由于需要全面监督,因此这些方法对真实数据的适用性受到限制。 但是,基于学习的方法在效率方面具有优势:学习网络的前向通行通常是足够的。 在实践中,这两个问题-数据驱动方法的优化问题和基于方法的学习指导要求-都将最新形状完成方法的适用性限制在实际数据中。
为了解决这些问题,这项工作为3D形状完成提出了一种摊销的最大似然方法。 更具体地说,我们使用变分自动编码器[26]对合成数据建模模型(参见图2,第1步)。 然后,可以将形状的完成表达为最大似然问题–精神[13]。 但是,我们没有采用分摊推论[19]的方法,而是直接根据观察值来学习最大似然解决方案,而不是针对不同的观察结果独立地使可能性最大化。 为了实现这一目标,我们训练了一种新的编码器,该编码器使用无监督的最大似然损失将观测值嵌入到相同的潜在空间中(请参见图2,步骤2)。 这使我们能够在具有挑战性的现实情况下(例如在KITTI上)学习3D形状完成. 使用有符号的距离函数表示形状,在将常规3D卷积神经网络应用于分辨率有限的体素网格时,我们能够获得亚体素精度,从而提供了一种高效的推理方法.
为了进行实验评估,我们引入了两个基于ShapeNet和ModelNet的新颖的合成形状完成基准。 在KITTI上,我们将进一步比较我们在Engelmannetal上的工作方法。[13] –唯一涉及KITTI形状完成的相关工作。 我们的实验表明,我们获得了可以与数据驱动技术匹敌的形状重构,同时显着减少了推理时间。 我们的代码和数据集是公开可用的1。 本文的结构如下:我们在第2节中讨论相关工作。在第3节中,我们描述了弱监督形状完成的摊销最大似然框架。 我们在第4节介绍实验结果,并在第5节总结。
2.related work
基于对称和数据驱动的相关工作方法:形状完成通常在部分扫描对象或单个对象上执行。 按照[44],经典的形状完成方法可以粗略地分为基于对称的方法和数据驱动的方法。 前者利用观察到的对称性来完成形状。 代表性作品包括[27,29,34,46,51]。 相对于所提出的方法,数据驱动的案例更加有趣。 在早期工作中,Pauly等人。 [33]姿势形状完成作为检索和对齐问题。在[3,10,13,14,21,30,32]中,通过学习潜在的形状空间避免了形状检索。然后将对齐任务作为潜在形状变量的优化问题。 数据驱动的方法适用于假设有关形状类别的知识的实际数据,以便事先学习形状。 但是,它们需要在推理时进行昂贵的优化。 相反,我们提出了一种通过深度神经网络的方法来摊销推理过程的方法,从而可以有效地完成3D形状。
基于学习的方法:随着近来深度学习的成功,提出了基于全学习的方法[8,15,16,23,37,39,41,42]。 严格来说,这些技术也是由数据驱动的,但是,在合成数据集(如ShapeNet [5]或ModelNet [49])上通常完全使用深度神经网络,在完全监督下学习形状完成,可以避免形状检索和拟合。 一些方法[24、39、45]使用八叉树通过提供多个尺度的监督来预测高分辨率形状。 但是,在实际情况下(例如KITTI [18]),通常无法获得对3D形状的全面监管,因此,现有模型主要是在合成数据集上进行评估的。 在本文中,我们建议先在合成数据上训练形状,但要利用未标记的真实世界数据来学习形状完成。
摊销推论:摊销推论的概念是在[19]中引入的,并在最近的工作[38,40,47]中反复加以利用。 通常,它描述了学习如何推理的想法。 在我们的案例中,我们通过训练网络直接预测最大似然解来学习(即摊销)最大似然推理问题。
3.方法
下面,我们首先介绍弱监督3D形状完成问题的数学公式。 随后,我们简要讨论了变分自动编码器(VAE)的概念[26],我们将其用于先验形状。 最后,我们正式得出我们提议的摊销的最大似然(AML)方法。 图2也说明了整个框架。
3.1问题公式化
4.5.2 Shape Completion on KITTI
在KITTI上,考虑表1,我们将重点放在AML,Sup和相关工作上[13]。 我们注意到完整性(Comp)以米为单位。 补充以及Engelmann等人的方法。 [13]接近平均10厘米,而只有AML才能将Comp实际减小到9.1厘米。 我们还报告了AML,Sup和[13]的结果应用于KITTI的地面真实情况,即使用地面真实情况点作为输入。 在这种情况下,性能略有提高,但是AML仍胜过Sup,这表明Sup不能很好地推广。 但是,由于基本事实是嘈杂的,因此性能差异不会显着。 因此,运行时间和监督级别变得越来越重要。 关于前者,与[13]相比,AML的运行时间显着降低。 关于后者,与Sup相比,AML需要更少的监督。 总体而言,这显示了能够在弱监督下摊销(即学习)塑造完成的优势。 最后,我们考虑图4所示的关于KITTI的定性结果。由于没有完整的地面真理形状,因此很难对定性性能进行推理。 例如,AML和[13]对第一个样本做出了类似的预测。 但是,对于第二个和第三个预测,预测差别很大。 在这里,人们认为[13]很难预测出合理大小的汽车,而AML显然可以恢复诸如车轮之类的细节。 我们还注意到,Sup明显偏向于不符合观察点的超薄汽车。 总体而言,我们确定在KITTI上判断形状的完成情况–从而激发了SN清洁和SN噪声的产生; [13]和AML都能够预测合理的形状。
5.Conclusion
在本文中,我们提出了一种基于弱学习的基于学习的3D形状完成方法。 在使用变分自动编码器(VAE)[26]先于合成数据学习形状之后,我们将形状完成公式化为最大似然(ML)问题。 我们修复了学习的生成模型,即VAE的解码器,并训练了新的确定性编码器,以分摊(即学习)机器学习问题。 该编码器可以无监督的方式进行训练。 与相关的数据驱动方法相比,拟议的摊销最大似然(AML)方法提供了快速推断,并且与相关的基于学习的方法相比,不需要全面的监督。 从ShapeNet [5]和ModelNet [49]衍生出的新创建的合成3Dshape基准测试中,我们证明了AML的性能优于最先进的数据驱动方法[13](同时显着减少了运行时间),并且可以跨对象类别进行概括。 在相关的基于学习的方法的激励下,我们还比较了在完全监督下的方法基线。 我们证明了AML可以在使用9%或更少的监督的情况下在数量和质量上与完全监督的模型竞争。 根据来自KITTI的真实数据[18],AML和[13]都预测出合理的形状。 但是,AML证明运行时间明显降低,并且运行时间与观察到的点无关。 此外,AML可以从KITTI的未标记数据中学习,因此,其表现优于完全受监督的基线,因此可以很好地概括。 总体而言,我们的实验证明了拟议的AML方法的好处:与基于数据的方法相比,与基于数据的方法相比,运行时间减少了,并且对未标记的真实数据进行了培训。