跳转至

三维场景零样本分割新突破:SAMPro3D技术解读

SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation

1. 论文信息

2. 引言

这篇论文提出了一种创新的3D室内场景分割方法,这在增强现实、机器人技术等领域是一个关键的任务。该任务的核心是从多种3D场景表现形式(如网格或点云)中预测3D物体掩膜。历史上,传统方法在分割训练过程中未遇到的新物体类别时常常遇到困难,这限制了它们在陌生环境中的有效性。

最近的进展,如Segment Anything Model(SAM),在2D图像分割方面显示出潜力,能够在无需额外训练的情况下分割陌生的图像。本文探讨了将SAM原理应用于3D场景分割的可能性,具体研究了是否可以直接将SAM应用于2D帧,以分割3D场景,而无需额外训练。这一探索基于SAM的一个独特特点:它的提示功能,即它接受各种输入类型来指定图像中的分割目标。

作者指出了一个关键挑战:确保同一3D物体在不同帧中的2D分割的一致性。他们观察到,像SAM3D这样的现有方法,它将自动化SAM应用于单个帧,但在不同帧中存在不一致性,导致3D分割效果不佳。另一种方法,SAM-PT,在视频跟踪中效果显著,但在3D场景中失败,因为物体并非始终出现在所有帧中。

为了应对这些挑战,论文提出了一个名为SAMPro3D的新框架,该框架在输入场景中定位3D点作为SAM提示。这些3D提示被投影到2D帧上,确保了跨帧一致的像素提示和相应的掩膜。这种方法确保了同一3D物体在不同视角下的分割掩膜的一致性。

SAMPro3D首先初始化3D提示,使用SAM在各个帧中生成相应的2D掩膜。然后,它根据所有帧中相应掩膜的质量过滤3D提示,优先选择在所有视图中都能产生高质量结果的提示。为了解决部分物体分割的问题,该框架合并了重叠的3D提示,整合信息以实现更全面的分割。SAMPro3D累积跨帧的预测结果,以得出最终的3D分割。值得注意的是,该方法不需要额外的领域特定训练或3D预训练网络,这保持了SAM的零样本能力,是之前方法所不具备的显著优势。

该论文通过广泛的实验验证了SAMPro3D的有效性,展示了它在实现高质量和多样化分割方面的能力,通常甚至超过了人类级别的标注和现有方法。此外,它还展示了在2D分割模型(如HQ-SAM和Mobile-SAM)中的改进可以有效地转化为改进的3D结果。这篇论文为3D室内场景分割引入了一种开创性的方法,巧妙地利用了2D图像分割模型的能力,并将其创新地应用于3D领域。结果是一种强大的、零样本的分割方法,显著推进了3D视觉理解领域的最新发展。

3. 方法

本文提出的方法名为SAMPro3D,旨在直接应用Segment Anything Model (SAM) 对室内场景的3D点云及其关联的2D帧进行零样本3D场景分割。

3D Prompt Proposal

首先,针对一个3D场景的点云 \mathbf{F}\in \mathbb{R}^{N\times 3},包含 N 个点,我们使用最远点采样(Furthest-Point Sampling, FPS)从中采样 M 个点作为初始3D提示 \mathbf{P}\in \mathbb{R}^{M\times 3}。FPS帮助我们实现了场景中物体的良好覆盖。简化地,我们用 \mathbf{f} \in \mathbb{R}^{3}\mathbf{p} \in \mathbb{R}^{3} 分别表示单个输入点和一个3D提示。

接着,我们仅考虑针孔相机配置。具体来说,给定帧 i 的相机内参矩阵 I_i 和世界到相机的外参矩阵 E_i,我们通过以下公式计算点提示 \mathbf{p} 的对应像素投影 \mathbf{x}=(u, v)\tilde{\mathbf{x}} = I_i \cdot E_i \cdot \tilde{\mathbf{p}} 其中,\tilde{\mathbf{x}}\tilde{\mathbf{p}} 分别是 \mathbf{x}\mathbf{p} 的齐次坐标。我们通过深度值执行遮挡测试,以确保当且仅当点 \mathbf{p} 在帧 i 中可见时,像素 \mathbf{x} 才有效。

然后,在图像帧上执行SAM分割。SAM能接受像素坐标、边界框或掩膜等多种输入,并预测与每个提示相关的分割区域。在我们的框架中,我们将所有计算出的像素坐标用于提示SAM,并在所有帧上获取2D分割掩膜。通过在3D空间中定位提示,源自不同帧但由同一3D提示投影的像素提示将在3D空间中对齐,从而带来帧间一致性。

2D-Guided Prompt Filter

在之前的提示初始化过程中,某些提示可能会生成低质量且冗余的掩膜,这将降低最终结果的质量。为解决这个问题,我们引入了一个机制来“收集所有帧的反馈”。 我们首先采用自动化SAM提出的策略在每个单独的帧上过滤提示。基本上,这种策略会消除那些对应掩膜置信度低或与其他掩膜重叠度大的提示。如果一个3D提示 \mathbf{p} 在某帧中有有效的像素投影 \mathbf{x},则它的计数器 \mathbf{c} 会增加。如果该提示在该帧的过滤阶段成功存活,则它的得分 \mathbf{s} 会累积。在评估所有帧后,我们计算保留一个3D提示的概率 {\theta},并在其概率超过预定义阈值 \mathtt{\theta}_{keep} 时保留该提示。这个算法使我们能够通过考虑所有2D视图的反馈来"让所有帧都满意"。它优先选择高质量的提示,同时在帧间保持提示的一致性,最终提升3D分割结果。

Prompt Consolidation

有时,由单个3D提示对齐的2D掩膜可能只分割了对象的一部分,因为2D帧的覆盖范围有限。为解决这个问题,我们设计了一个提示合并策略。该策略涉及检查不同3D提示生成的掩膜,并识别它们之间的一定重叠。在这种情况下,我们认为这些提示可能正在分割同一个对象,并将它们合并为单个伪提示。这个过程促进了提示间信息的整合,导致更全面的对象分割。

3D Scene Segmentation

在前面的步骤之后,我们获得了最终的3D提示集合及其在帧间的2D分割掩膜。此外,我们还确保了每个3D对象由单个提示分割,允许提示ID自然地作为对象ID。

为了分割3D场景中的所有点,我们继续将\textit{所有}场景输入点投影到每个分割帧上,并使用以下步骤计算它们的预测:对于场景中的每个单独输入点 \mathbf{f},如果它被投影到帧 i 中由提示 p_k 分割的掩膜区域内,我们将其在该帧中的预测指定为提示ID k。我们累积 \mathbf{f} 在所有帧中的预测,并根据最多次分配给它的提示ID确定其最终预测ID。通过对所有输入点重复此过程,我们可以实现输入场景的完整3D分割。

4. 实验

从这个表格中提供的实验数据中,我们可以得出一些结论关于3D室内场景分割性能。这些数据基于ScanNet200数据集的标注,评价指标是mIoU(mean Intersection over Union),一个常用的衡量图像分割效果的指标。

  1. 与其他方法的比较:在mIoU [0.5] 和mIoU [0.1:0.9:0.1] 这两个指标上,我们的方法与其他两个主要对比方法Mask3D和SAM3D相比,表现更优。特别是在mIoU [0.5] 上,我们的方法达到了82.60%,高于Mask3D的79.03%和SAM3D的74.82%。

  2. 过滤和合并提示的重要性:不使用2D引导的提示过滤(w/o Fil.)和不使用提示合并(w/o Con.)的情况下,性能有所下降,这表明这两个步骤对于最终的分割效果是重要的。

  3. 提示数量的影响:在不同数量的提示下(即 \times0.8, 1.2, 2),我们的方法表现出相对稳定的性能,其中使用\times1.2时性能最佳。

  4. 投票机制的影响:在提示过滤时使用的两种不同投票机制(soft和top-k)中,soft策略略优于top-k策略,尤其是在mIoU [0.5] 指标上。

  5. 增强SAM的作用:引入HQ-SAM(+HQ.)和Mobile-SAM(+Mob.)后,可以观察到性能提升,尤其是HQ-SAM,它在mIoU [0.5] 指标上达到了83.19%,显示了进一步优化SAM模型在3D室内场景分割中的潜力。

这些实验结果表明,本文提出的方法在3D室内场景分割任务上具有强大的性能,尤其是在采用2D引导的提示过滤和提示合并策略,以及进一步增强SAM模型时。此外,这些结果还揭示了不同提示数量和投票机制对性能的影响,以及优化3D提示的潜力。

5. 讨论

这篇论文在3D室内场景分割领域提出了一种创新的方法,展示了显著的性能提升,尤其是在处理具有挑战性的零样本场景时。其主要优势在于有效地利用了Segment Anything Model(SAM),通过一系列精心设计的步骤,如3D提示提议、2D引导的提示过滤和提示合并策略,来改善3D场景的分割效果。这种方法充分利用了SAM在2D图像分割领域的强大能力,并巧妙地将其扩展到3D场景,显示了跨领域应用的巨大潜力。

特别是,该方法通过3D提示的初始化和精确过滤,确保了3D分割的精度和一致性。此外,通过集成HQ-SAM和Mobile-SAM,该方法进一步提升了其性能,显示了在不断发展的深度学习领域中,通过集成新技术以适应更复杂应用场景的重要性。

然而,该方法也存在一些潜在的限制。首先,尽管实验结果表明该方法在多个指标上表现出色,但它依赖于SAM模型,这可能限制了其在没有大规模预训练数据时的适用性。此外,3D提示的初始化和过滤策略虽然有效,但可能需要显著的计算资源,尤其是在处理大规模或复杂的3D场景时。此外,该方法的泛化能力尚需在更多不同类型的3D场景中进行测试和验证。

综上所述,尽管这篇论文在3D室内场景分割方面取得了显著进展,但其依赖于特定的深度学习模型和可能需要较高计算资源的处理流程,这些因素可能会影响其在实际应用中的广泛可行性。

6. 结论

总的来说,这篇论文提出了一种创新且有效的方法,用于提升3D室内场景分割的准确度和效率。其通过集成先进的2D图像分割模型并将其扩展到3D领域,展示了显著的性能提升。尽管存在一些潜在的限制,如对预训练数据的依赖和高计算资源需求,但这项工作无疑为3D视觉理解领域带来了新的见解和方法。


本文总阅读量