三维点云补全处理与分析的综述
Last updated
Last updated
原文链接
点云补全是一种由部分点云数据衍生的生成和估计问题,在3D计算机视觉应用中起着关键作用。深度学习(DL)的进步显著提高了点云补全的能力和鲁棒性。然而,完成的点云质量仍需要进一步提高以满足实际应用需求。因此,本文旨在对各种方法进行全面调查,包括基于点的、基于视图的、基于卷积的、基于图的、基于生成模型的、基于变换器的方法等。本综述还总结了这些方法之间的比较,以激发进一步研究的见解。此外,本综述还总结了常用的数据集,并阐述了点云补全的应用。最后,我们还讨论了这个迅速扩展领域的可能研究趋势。
索引词—深度学习,点云,补全,3D视觉。
随着三维扫描设备(如LiDAR、激光或RGB-D扫描仪等)的普及,点云的获取变得更容易,并在机器人、自动驾驶、3D建模和制造等领域引发了大量研究。然而,这些设备直接采集的原始点云主要是稀疏和部分的,这是由于遮挡、反射、透明度以及设备分辨率和角度的限制。因此,从部分观测数据生成完整点云对于提高下游应用的性能至关重要。
点云补全的有效性在于其在各种计算机视觉应用中的独特和关键作用。3D重建是许多计算机视觉任务的基础和重要技术,包括自动驾驶中的高分辨率3D地图重建、机器人领域的3D重建以及地下采矿。例如,机器人应用中的点云补全可以通过构建3D场景来帮助规划路线和决策。此外,精确监测采矿安全的大型3D环境重建在地下采矿空间中也很重要。3D检测依赖于完整的点云来保持最先进的性能。例如,LiDAR捕捉到的远处的汽车往往是稀疏的,难以检测。值得注意的是,我们通常需要完全分割目标点云以完成补全。例如,在对KITTI数据集进行3D检测时,需要对汽车的点云进行分割和归一化,以便获取汽车的完整点云。3D形状分类需要从部分观测中恢复完整的点云。部分点云通常难以识别,因为它只表示物体的一小部分。由于点云补全在许多实际计算机视觉应用中起着至关重要的作用,因此有必要对点云补全进行广泛的调查。
在过去的几年里,研究人员尝试了许多深度学习方法来解决这个问题。早期关于点云补全的尝试[12]–[17]试图通过体素化和3D卷积将2D补全任务的成熟方法转移到3D点云上。然而,这些方法在空间分辨率增加时面临着高计算成本。随着PointNet和PointNet++ [18], [19]的巨大成功,直接处理3D坐标已经成为基于点云的3D分析的主流。这种技术进一步应用于许多点云补全的开创性工作[20]–[27],其中设计了一个编码器-解码器方案来生成完整的点云。近年来,还涌现出许多其他方法,如基于点的、基于视图的、基于卷积的、基于图的、基于生成模型的和基于变换器的方法,取得了显著的成果(如图1所示)。
与现有的论文相比,本综述的主要贡献可以归纳如下:
• 据我们所知,这是第一个系统地涵盖了几乎所有关于点云补全的深度学习方法的综述。
• 本综述介绍了点云补全领域的最新进展和先进技术,以及它们的方法和贡献。
• 提供了现有深度学习方法在一些公共数据集上的系统比较,以及紧凑的结论和深入的讨论。
• 在本综述的最后,我们将讨论基于深度学习的点云补全的未来研究,以刺激这个领域的进一步发展。
定义:点云是表示三维形状或对象的空间中的一组数据点。点云通常由3D扫描仪或摄影测量软件生成,包括大量几何上表示物体的3D表面的点。部分或不完整的点云意味着一个具有缺失点的点云。缺失的点意味着由于各种原因,点云中的部分点缺失。
在数据采集过程中,3D激光扫描仪会受到被测物体的特性、处理方法和环境的影响,从而不可避免地导致点的缺失(图2)。如图3所示,主要原因可以归因于镜面反射、信号吸收、外部物体遮挡、物体自遮挡和盲区。前两者是由于物体表面材料吸收或以意想不到的方式反射LiDAR信号。后三者主要归因于遮挡,可以通过物体的其他部分或利用多源数据来完成。此外,扫描过程中3D扫描仪的稳定性对扫描质量也有一定的影响。
在数据采集完成后,点云还需要进行一系列处理,如点云去噪、平滑、配准和融合。同时,这些操作会显著加剧点的缺失。这不仅会影响数据的完整性和导致拓扑错误,还会影响点云重构、3D模型重建、局部空间信息提取和后续处理的质量。
A. 结构信息挑战
完整点云的重构具有挑战性,因为点云补全任务所需的结构信息与点云的无序和非结构化特性相悖。现实世界中的3D物体点云可以被认为是低级和高级配置,包括表面、语义部分、几何元素等。现有的点云生成框架要么在设计的解决方案中排除结构,要么假设并执行特定的结构/拓扑来生成3D物体的完整点云,例如一组表面或流形。因此,学习点云的结构特征对于更好地完成点云至关重要。
B. 细粒度完整形状挑战
3D形状补全应该利用几何对称、规律排列和表面光滑等关系结构信息重构一个合理的细粒度完整点云。尽管已有一些工作通过迭代优化[28]、全局特征和局部特征的集成[29]、跳跃连接[30]、残差连接[31]等充分利用了结构信息,但在生成细粒度完整形状方面仍需要付出更多努力。
因此,本综述将研究最先进的补全性能,并讨论它们在应对这两个重大挑战时所采用的解决方案。
对于3D形状补全,数据集可以分为两类:人工数据集和真实世界数据集(表I)。
最常研究的四个数据集如下:
PCN[32]:源自PCN[25]的计算机辅助设计(CAD)数据集,共包含8个特定类别的30974个3D模型。地面真实点云由表面上均匀采样的16384个点组成。
KITTI[34]:该数据集是通过Velodyne激光扫描仪收集的。测距数据集最初是为了评估立体匹配的性能而设计的,其中包含22个立体序列的LiDAR点云。部分汽车被收集以评估在没有地面真实数据的情况下,点云补全方法在真实世界扫描中的性能。
ModelNet40[35]:一个包含3D CAD模型的综合数据集。它的物体包括40个类别和13356个模型。
Completion3D[24]:一个在线平台,用于在基于ShapeNet数据集派生的子集的基础上评估形状补全方法。值得注意的是,一些配对点云面临着不匹配的比例问题,这可以通过[37]中提出的单侧CD损失来解决。
除了上述数据集外,最近还提出了Shapenet 34/55 [33]和MVP数据集[36],以尽可能地增加物体的种类和数量、多样化的视点以及接近真实世界物体的不同程度的缺陷。
对于3D点云补全,Chamfer Distance(CD)[38]和Earth Mover’s Distance(EMD)[38]是最常用的性能标准。CD试图找到两组点之间的最小距离,而EMD评估点云重建的质量。
Chamfer Distance
根据定义,CD表示从输出S1中的点到完整点云S2中的点的平均最近距离之和,以及从S2中的点到S1中的点的距离。CD有两个变体:CD-T (CD-l1) 和 CD-P (CD-l2)。CD-T和CD-P之间的两个点云的定义如下:
Earth Mover’s Distance (EMD)
EMD旨在找到一个双射φ:S1→S2,以最小化部分和完整点之间对应点的平均距离。与CD不同,S1和S2的大小需要相同。
Fidelity error (FD) Maximum Mean Discrepancy (MMD)和一致性 PCN提出了Fidelity error (FD)、Consistency和minimal matching distance (MMD)作为评估指标[25]。Fidelity用于衡量输入保留的程度,它计算输入点与输出中相应最近邻点之间的平均距离。MMD用于衡量模型的输出重建了一个典型的汽车。Consistency旨在估计模型的输出在输入变化下的一致性。
DCD[39]是从CD衍生出来的,它可以检测密度分布的差异。DCD关注整体结构和局部几何细节。
精度计算重建点在一定距离内接近地面真实数据的百分比,表示重建的准确性。另一方面,召回率计算地面真实数据上在一定距离内接近重建的点的百分比,表示重建的完整性。距离阈值d可以用来控制F-score的严格程度。F-score可以评估正确重建的点或表面积