跳转至

Scene Coordinate Reconstruction Priors

会议: ICCV 2025
arXiv: 2510.12387
代码: nianticspatial.github.io/scr-priors
领域: 3D视觉
关键词: 场景坐标回归, 重建先验, 3D扩散模型, 视觉重定位, 运动恢复结构

一句话总结

提出场景坐标回归(SCR)的概率化训练框架,引入手工设计的深度分布先验和基于3D点云扩散模型的学习先验,在多视角约束不足时显著改善场景重建质量、相机位姿估计和下游任务表现。

研究背景与动机

场景坐标回归(SCR)模型是一类强大的隐式场景表示方法,广泛应用于视觉重定位和运动恢复结构(SfM)。其核心思想是训练一个针对特定场景的网络,将图像patch映射到3D场景坐标。ACE框架在几分钟内即可训练出高效的SCR模型,ACE0进一步实现了自监督SfM。

然而SCR本质上仍依赖经典的三角化原理——无论是显式还是隐式的三角化,当多视角约束不足时(如纹理贫乏区域、重复结构、反射面等),三角化会退化。这导致预测的3D场景点出现噪声、扭曲甚至严重离群,最终影响位姿估计和新视角合成质量。

作者观察到:退化的场景表示明显不符合真实几何——例如房间一半的点云弥散到空间中,相机轨迹穿过墙壁。这种"不合理"可以通过高层重建先验来纠正。然而现有SCR方法几乎没有利用场景无关的先验知识,仅ACE的特征编码器经过预训练,但作为底层组件难以保证最终场景表示的全局一致性。

方法详解

整体框架

本文的核心贡献是将SCR训练重新解释为最大似然学习。给定映射图像 \(\mathcal{I}_M\) 和相机位姿 \(\mathbf{h}^*\),场景点 \(\mathbf{y}\) 的后验概率为:

\[-\log p(\mathbf{y} \mid \mathbf{h}^*, \mathcal{I}_M) \propto -\log p(\mathbf{h}^*, \mathcal{I}_M \mid \mathbf{y}) - \log p(\mathbf{y})\]

其中第一项对应重投影损失 \(L_{\text{reproj}}\),第二项即为先验 \(L_{\text{reg}} = -\log p(\mathbf{y})\)。关键创新在于将重投影误差与先验联合优化,而非像原始ACE那样在初始化损失和重投影损失之间切换。

整体流程基于ACE框架:将SCR模型分解为场景无关的特征提取器 \(f_B\)(预训练冻结)和场景特定的回归头 \(f_H\)。训练时从特征缓冲区采样mini-batch,预测3D场景点后同时施加重投影损失和先验正则化。先验仅在训练阶段使用,不影响推理效率。

关键设计

1. 深度分布先验 (Depth Distribution Prior, RGB)

对预测场景坐标的深度值建模合理分布。选择Laplacian分布 \(\text{Lap}(d \mid \mu, b)\),在ScanNet训练集上拟合得到均值 \(\mu=1.73\)m,带宽 \(b=60\)cm。提出两种使用方式:

  • 负对数似然 (NLL):直接对每个像素的深度值计算 \(\log p(\mathbf{y}_i) = \lambda_{\text{reg}} \log \text{Lap}(d_i \mid \mu, b)\),等价于将深度拉向经验均值的L1损失。
  • Wasserstein距离 (WD):计算mini-batch深度集合 \(\{d_i\}\) 与目标Laplace分布的Wasserstein距离,利用ACE随机采样mini-batch近似整体深度分布的特性,不仅约束均值还约束方差。

2. 深度先验 (Depth Prior, RGB-D)

当有RGB-D输入时,将宽泛的深度分布替换为以实测深度 \(d_i^*\) 为中心的窄分布:\(\log p(\mathbf{y}_i) = \lambda_{\text{reg}} \log \text{Lap}(d_i \mid d_i^*, b')\),其中容差带宽 \(b'=10\)cm。相比DSAC*的硬切换策略(10cm阈值内切换到重投影损失),这种概率化软约束提供了更稳定的优化。

3. 3D点云扩散先验 (Point Cloud Diffusion Prior, RGB)

预训练一个3D点云去噪扩散模型,编码室内场景的合理布局知识。利用score matching的关系,扩散模型的噪声估计正比于对数似然的梯度:

\[\nabla_{\mathbf{x}} \log p(\mathbf{x}) = -\lambda_{\text{reg}} \epsilon_\theta(\mathbf{x}_\tau, \tau)\]

架构采用PVCNN (Point-Voxel CNN),在ScanNet的706个训练场景上训练,每步随机采样5120个点,总扩散步数200,单V100训练100k迭代。

推理集成策略:在ACE训练的第5k步后开始施加扩散先验;将扩散时间步 \(T/20\) 对齐到5k步并线性插值到0;对重投影误差小于30像素的点不施加先验(认为已有充分多视角约束)。

损失函数

最终优化目标为:\(L = L_{\text{reproj}} + L_{\text{reg}}\)

其中 \(L_{\text{reg}}\) 可选以上三种先验之一。先验通过 \(\lambda_{\text{reg}}\) 平衡权重。扩散先验通过梯度形式直接作用于场景坐标的优化过程。

实验关键数据

主实验:SfM重建 (ScanNet + Indoor6)

方法 注册率↑ ATE/RPE(cm)↓ 中位误差(cm/°)↓ PSNR 1/7↑ PSNR 60/60↑
ACE0 (RGB) 98.1% 26.6/4.0 19.7/9.0 30.2 22.3
+ Laplace NLL 98.9% 25.4/3.5 17.5/8.8 30.2 22.2
+ Laplace WD 98.7% 25.9/3.6 17.5/6.8 30.3 21.7
+ Diffusion 98.6% 26.5/3.8 18.8/8.9 30.2 22.4
ACE0 + DSAC* (RGB-D) 96.2% 29.2/6.0 20.9/5.9 30.0 21.9
+ Laplace NLL (RGB-D) 98.9% 18.3/3.5 12.8/4.4 30.6 22.9

Indoor6数据集上扩散先验效果尤为突出:注册率从57.1%提升到61.8%(+4.7%),PSNR从13.5提升到14.6dB(+1.1dB)。

重定位实验 (7Scenes)

方法 训练时间 模型大小 平均精度(5cm/5°)↑
ACE 5min 4MB 97.1%
+ Laplace NLL 4.5min 4MB 97.3%
+ Laplace WD 4.5min 4MB 97.2%
+ Diffusion 8min 4MB 97.7%
GLACE 6min 9MB 95.6%
+ Diffusion 9min 9MB 95.9%

在最困难的Stairs场景上,扩散先验将ACE的精度从81.9%提升到86.2%(+4.3%)。

消融与关键发现

  • 深度分布先验简化了优化目标,甚至略微减少训练时间(5min→4.5min),同时提升性能
  • 扩散先验增加约3分钟训练时间(5min→8min),但提供最强的全局正则化信号
  • RGB-D先验的概率化软约束显著优于DSAC*的硬切换策略:ATE从29.2cm降至18.3cm
  • 先验仅在训练阶段使用,不影响推理时间和模型大小
  • 扩散模型仅在约700个室内场景上训练,生成质量有限,但作为先验已足够有效
  • 对重投影误差小于30像素的点跳过扩散先验,避免干扰已有充分约束的区域

亮点与洞察

  1. 概率化重新解释是本文最优雅的贡献——将SCR训练统一到最大后验(MAP)框架下,使得各种先验的引入变得自然且有理论依据,无需逐一设计ad-hoc的正则化策略
  2. 扩散模型作为先验而非生成器的思路很有启发性:即使生成质量不高的3D扩散模型,其学到的分布梯度仍能有效引导重建。这降低了对3D扩散模型保真度的要求
  3. 训练时先验、推理时无开销的设计非常实用,完美保持了ACE系列方法的推理效率优势
  4. RGB-D先验结果表明,概率化软约束比硬切换策略更适合融合多模态信息,这一洞察可推广到其他多模态融合场景
  5. 扩散先验与SCR训练过程的对齐策略(5k步开始、线性插值时间步、跳过低误差点)设计精巧,体现了对两个过程特性的深入理解

局限性

  1. 仅验证室内场景:先验在ScanNet上拟合/训练,对室外场景需要不同的深度分布模型和更多样化的训练数据
  2. 扩散模型表达力有限:使用PVCNN且仅在约700个场景上训练,生成的点云缺乏细节,对复杂场景布局的编码能力有限
  3. 扩散先验未引入条件信号:无条件扩散模型提供的是通用先验,加入图像条件或语义条件可能使引导更精准
  4. Indoor6数据集上结果方差较大,难以得出确定性结论
  5. 深度分布先验假设Laplace分布族,对于多模态深度分布(如多层楼)可能不够灵活

相关工作与启发

  • ACE/ACE0/GLACE系列:本文的基础框架,证明了SCR方法的高效性。本文的先验可无缝插入这些框架的任何衍生方法
  • DiffusioNeRF:启发了利用扩散模型作为重建先验的思路,但DiffusioNeRF在2.5D patch上操作且需渲染,开销大。本文直接在3D空间操作,更高效
  • DUSt3R/MASt3R:通过大规模预训练实现强重建先验的feed-forward方法,但难以扩展到大规模图像集合。本文的先验策略与之互补
  • DSAC*:早期在SCR中融合深度信息的方法,本文的概率化框架提供了更优雅的替代方案
  • PVCNN:3D点云处理的高效架构,本文证明了其在全场景级别扩散中的可行性

评分

  • 新颖性: ⭐⭐⭐⭐ — 概率化重新解释SCR训练并引入多种先验,思路清晰有理论深度
  • 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种先验变体、SfM和重定位双任务验证,消融充分
  • 写作质量: ⭐⭐⭐⭐⭐ — 动机阐述清晰,概率框架推导优雅,实验组织有条理
  • 价值: ⭐⭐⭐⭐ — 即插即用的先验策略对SCR社区有直接实用价值,概率化视角具有方法论启发

相关论文