Scene Coordinate Reconstruction Priors¶
会议: ICCV 2025
arXiv: 2510.12387
代码: nianticspatial.github.io/scr-priors
领域: 3D视觉
关键词: 场景坐标回归, 重建先验, 3D扩散模型, 视觉重定位, 运动恢复结构
一句话总结¶
提出场景坐标回归(SCR)的概率化训练框架,引入手工设计的深度分布先验和基于3D点云扩散模型的学习先验,在多视角约束不足时显著改善场景重建质量、相机位姿估计和下游任务表现。
研究背景与动机¶
场景坐标回归(SCR)模型是一类强大的隐式场景表示方法,广泛应用于视觉重定位和运动恢复结构(SfM)。其核心思想是训练一个针对特定场景的网络,将图像patch映射到3D场景坐标。ACE框架在几分钟内即可训练出高效的SCR模型,ACE0进一步实现了自监督SfM。
然而SCR本质上仍依赖经典的三角化原理——无论是显式还是隐式的三角化,当多视角约束不足时(如纹理贫乏区域、重复结构、反射面等),三角化会退化。这导致预测的3D场景点出现噪声、扭曲甚至严重离群,最终影响位姿估计和新视角合成质量。
作者观察到:退化的场景表示明显不符合真实几何——例如房间一半的点云弥散到空间中,相机轨迹穿过墙壁。这种"不合理"可以通过高层重建先验来纠正。然而现有SCR方法几乎没有利用场景无关的先验知识,仅ACE的特征编码器经过预训练,但作为底层组件难以保证最终场景表示的全局一致性。
方法详解¶
整体框架¶
本文的核心贡献是将SCR训练重新解释为最大似然学习。给定映射图像 \(\mathcal{I}_M\) 和相机位姿 \(\mathbf{h}^*\),场景点 \(\mathbf{y}\) 的后验概率为:
其中第一项对应重投影损失 \(L_{\text{reproj}}\),第二项即为先验 \(L_{\text{reg}} = -\log p(\mathbf{y})\)。关键创新在于将重投影误差与先验联合优化,而非像原始ACE那样在初始化损失和重投影损失之间切换。
整体流程基于ACE框架:将SCR模型分解为场景无关的特征提取器 \(f_B\)(预训练冻结)和场景特定的回归头 \(f_H\)。训练时从特征缓冲区采样mini-batch,预测3D场景点后同时施加重投影损失和先验正则化。先验仅在训练阶段使用,不影响推理效率。
关键设计¶
1. 深度分布先验 (Depth Distribution Prior, RGB)
对预测场景坐标的深度值建模合理分布。选择Laplacian分布 \(\text{Lap}(d \mid \mu, b)\),在ScanNet训练集上拟合得到均值 \(\mu=1.73\)m,带宽 \(b=60\)cm。提出两种使用方式:
- 负对数似然 (NLL):直接对每个像素的深度值计算 \(\log p(\mathbf{y}_i) = \lambda_{\text{reg}} \log \text{Lap}(d_i \mid \mu, b)\),等价于将深度拉向经验均值的L1损失。
- Wasserstein距离 (WD):计算mini-batch深度集合 \(\{d_i\}\) 与目标Laplace分布的Wasserstein距离,利用ACE随机采样mini-batch近似整体深度分布的特性,不仅约束均值还约束方差。
2. 深度先验 (Depth Prior, RGB-D)
当有RGB-D输入时,将宽泛的深度分布替换为以实测深度 \(d_i^*\) 为中心的窄分布:\(\log p(\mathbf{y}_i) = \lambda_{\text{reg}} \log \text{Lap}(d_i \mid d_i^*, b')\),其中容差带宽 \(b'=10\)cm。相比DSAC*的硬切换策略(10cm阈值内切换到重投影损失),这种概率化软约束提供了更稳定的优化。
3. 3D点云扩散先验 (Point Cloud Diffusion Prior, RGB)
预训练一个3D点云去噪扩散模型,编码室内场景的合理布局知识。利用score matching的关系,扩散模型的噪声估计正比于对数似然的梯度:
架构采用PVCNN (Point-Voxel CNN),在ScanNet的706个训练场景上训练,每步随机采样5120个点,总扩散步数200,单V100训练100k迭代。
推理集成策略:在ACE训练的第5k步后开始施加扩散先验;将扩散时间步 \(T/20\) 对齐到5k步并线性插值到0;对重投影误差小于30像素的点不施加先验(认为已有充分多视角约束)。
损失函数¶
最终优化目标为:\(L = L_{\text{reproj}} + L_{\text{reg}}\)
其中 \(L_{\text{reg}}\) 可选以上三种先验之一。先验通过 \(\lambda_{\text{reg}}\) 平衡权重。扩散先验通过梯度形式直接作用于场景坐标的优化过程。
实验关键数据¶
主实验:SfM重建 (ScanNet + Indoor6)¶
| 方法 | 注册率↑ | ATE/RPE(cm)↓ | 中位误差(cm/°)↓ | PSNR 1/7↑ | PSNR 60/60↑ |
|---|---|---|---|---|---|
| ACE0 (RGB) | 98.1% | 26.6/4.0 | 19.7/9.0 | 30.2 | 22.3 |
| + Laplace NLL | 98.9% | 25.4/3.5 | 17.5/8.8 | 30.2 | 22.2 |
| + Laplace WD | 98.7% | 25.9/3.6 | 17.5/6.8 | 30.3 | 21.7 |
| + Diffusion | 98.6% | 26.5/3.8 | 18.8/8.9 | 30.2 | 22.4 |
| ACE0 + DSAC* (RGB-D) | 96.2% | 29.2/6.0 | 20.9/5.9 | 30.0 | 21.9 |
| + Laplace NLL (RGB-D) | 98.9% | 18.3/3.5 | 12.8/4.4 | 30.6 | 22.9 |
Indoor6数据集上扩散先验效果尤为突出:注册率从57.1%提升到61.8%(+4.7%),PSNR从13.5提升到14.6dB(+1.1dB)。
重定位实验 (7Scenes)¶
| 方法 | 训练时间 | 模型大小 | 平均精度(5cm/5°)↑ |
|---|---|---|---|
| ACE | 5min | 4MB | 97.1% |
| + Laplace NLL | 4.5min | 4MB | 97.3% |
| + Laplace WD | 4.5min | 4MB | 97.2% |
| + Diffusion | 8min | 4MB | 97.7% |
| GLACE | 6min | 9MB | 95.6% |
| + Diffusion | 9min | 9MB | 95.9% |
在最困难的Stairs场景上,扩散先验将ACE的精度从81.9%提升到86.2%(+4.3%)。
消融与关键发现¶
- 深度分布先验简化了优化目标,甚至略微减少训练时间(5min→4.5min),同时提升性能
- 扩散先验增加约3分钟训练时间(5min→8min),但提供最强的全局正则化信号
- RGB-D先验的概率化软约束显著优于DSAC*的硬切换策略:ATE从29.2cm降至18.3cm
- 先验仅在训练阶段使用,不影响推理时间和模型大小
- 扩散模型仅在约700个室内场景上训练,生成质量有限,但作为先验已足够有效
- 对重投影误差小于30像素的点跳过扩散先验,避免干扰已有充分约束的区域
亮点与洞察¶
- 概率化重新解释是本文最优雅的贡献——将SCR训练统一到最大后验(MAP)框架下,使得各种先验的引入变得自然且有理论依据,无需逐一设计ad-hoc的正则化策略
- 扩散模型作为先验而非生成器的思路很有启发性:即使生成质量不高的3D扩散模型,其学到的分布梯度仍能有效引导重建。这降低了对3D扩散模型保真度的要求
- 训练时先验、推理时无开销的设计非常实用,完美保持了ACE系列方法的推理效率优势
- RGB-D先验结果表明,概率化软约束比硬切换策略更适合融合多模态信息,这一洞察可推广到其他多模态融合场景
- 扩散先验与SCR训练过程的对齐策略(5k步开始、线性插值时间步、跳过低误差点)设计精巧,体现了对两个过程特性的深入理解
局限性¶
- 仅验证室内场景:先验在ScanNet上拟合/训练,对室外场景需要不同的深度分布模型和更多样化的训练数据
- 扩散模型表达力有限:使用PVCNN且仅在约700个场景上训练,生成的点云缺乏细节,对复杂场景布局的编码能力有限
- 扩散先验未引入条件信号:无条件扩散模型提供的是通用先验,加入图像条件或语义条件可能使引导更精准
- Indoor6数据集上结果方差较大,难以得出确定性结论
- 深度分布先验假设Laplace分布族,对于多模态深度分布(如多层楼)可能不够灵活
相关工作与启发¶
- ACE/ACE0/GLACE系列:本文的基础框架,证明了SCR方法的高效性。本文的先验可无缝插入这些框架的任何衍生方法
- DiffusioNeRF:启发了利用扩散模型作为重建先验的思路,但DiffusioNeRF在2.5D patch上操作且需渲染,开销大。本文直接在3D空间操作,更高效
- DUSt3R/MASt3R:通过大规模预训练实现强重建先验的feed-forward方法,但难以扩展到大规模图像集合。本文的先验策略与之互补
- DSAC*:早期在SCR中融合深度信息的方法,本文的概率化框架提供了更优雅的替代方案
- PVCNN:3D点云处理的高效架构,本文证明了其在全场景级别扩散中的可行性
评分¶
- 新颖性: ⭐⭐⭐⭐ — 概率化重新解释SCR训练并引入多种先验,思路清晰有理论深度
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种先验变体、SfM和重定位双任务验证,消融充分
- 写作质量: ⭐⭐⭐⭐⭐ — 动机阐述清晰,概率框架推导优雅,实验组织有条理
- 价值: ⭐⭐⭐⭐ — 即插即用的先验策略对SCR社区有直接实用价值,概率化视角具有方法论启发
相关论文¶
- [ICCV 2025] SAS: Segment Any 3D Scene with Integrated 2D Priors
- [CVPR 2025] Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors
- [ICCV 2025] Proactive Scene Decomposition and Reconstruction
- [ICCV 2025] Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction
- [ICCV 2025] Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction