Scene Coordinate Reconstruction Priors¶

会议: ICCV 2025
arXiv: 2510.12387
代码: nianticspatial.github.io/scr-priors
领域: 3D视觉
关键词: 场景坐标回归, 重建先验, 3D扩散模型, 视觉重定位, 运动恢复结构

一句话总结¶

提出场景坐标回归(SCR)的概率化训练框架，引入手工设计的深度分布先验和基于3D点云扩散模型的学习先验，在多视角约束不足时显著改善场景重建质量、相机位姿估计和下游任务表现。

研究背景与动机¶

场景坐标回归(SCR)模型是一类强大的隐式场景表示方法，广泛应用于视觉重定位和运动恢复结构(SfM)。其核心思想是训练一个针对特定场景的网络，将图像patch映射到3D场景坐标。ACE框架在几分钟内即可训练出高效的SCR模型，ACE0进一步实现了自监督SfM。

然而SCR本质上仍依赖经典的三角化原理——无论是显式还是隐式的三角化，当多视角约束不足时（如纹理贫乏区域、重复结构、反射面等），三角化会退化。这导致预测的3D场景点出现噪声、扭曲甚至严重离群，最终影响位姿估计和新视角合成质量。

作者观察到：退化的场景表示明显不符合真实几何——例如房间一半的点云弥散到空间中，相机轨迹穿过墙壁。这种"不合理"可以通过高层重建先验来纠正。然而现有SCR方法几乎没有利用场景无关的先验知识，仅ACE的特征编码器经过预训练，但作为底层组件难以保证最终场景表示的全局一致性。

方法详解¶

整体框架¶

本文的核心贡献是将SCR训练重新解释为最大似然学习。给定映射图像 \(\mathcal{I}_M\) 和相机位姿 \(\mathbf{h}^*\)，场景点 \(\mathbf{y}\) 的后验概率为：

\[-\log p(\mathbf{y} \mid \mathbf{h}^*, \mathcal{I}_M) \propto -\log p(\mathbf{h}^*, \mathcal{I}_M \mid \mathbf{y}) - \log p(\mathbf{y})\]

其中第一项对应重投影损失 \(L_{\text{reproj}}\)，第二项即为先验 \(L_{\text{reg}} = -\log p(\mathbf{y})\)。关键创新在于将重投影误差与先验联合优化，而非像原始ACE那样在初始化损失和重投影损失之间切换。

整体流程基于ACE框架：将SCR模型分解为场景无关的特征提取器 \(f_B\)（预训练冻结）和场景特定的回归头 \(f_H\)。训练时从特征缓冲区采样mini-batch，预测3D场景点后同时施加重投影损失和先验正则化。先验仅在训练阶段使用，不影响推理效率。

关键设计¶

1. 深度分布先验 (Depth Distribution Prior, RGB)

对预测场景坐标的深度值建模合理分布。选择Laplacian分布 \(\text{Lap}(d \mid \mu, b)\)，在ScanNet训练集上拟合得到均值 \(\mu=1.73\)m，带宽 \(b=60\)cm。提出两种使用方式：

负对数似然 (NLL)：直接对每个像素的深度值计算 \(\log p(\mathbf{y}_i) = \lambda_{\text{reg}} \log \text{Lap}(d_i \mid \mu, b)\)，等价于将深度拉向经验均值的L1损失。
Wasserstein距离 (WD)：计算mini-batch深度集合 \(\{d_i\}\) 与目标Laplace分布的Wasserstein距离，利用ACE随机采样mini-batch近似整体深度分布的特性，不仅约束均值还约束方差。

2. 深度先验 (Depth Prior, RGB-D)

当有RGB-D输入时，将宽泛的深度分布替换为以实测深度 \(d_i^*\) 为中心的窄分布：\(\log p(\mathbf{y}_i) = \lambda_{\text{reg}} \log \text{Lap}(d_i \mid d_i^*, b')\)，其中容差带宽 \(b'=10\)cm。相比DSAC*的硬切换策略（10cm阈值内切换到重投影损失），这种概率化软约束提供了更稳定的优化。

3. 3D点云扩散先验 (Point Cloud Diffusion Prior, RGB)

预训练一个3D点云去噪扩散模型，编码室内场景的合理布局知识。利用score matching的关系，扩散模型的噪声估计正比于对数似然的梯度：

\[\nabla_{\mathbf{x}} \log p(\mathbf{x}) = -\lambda_{\text{reg}} \epsilon_\theta(\mathbf{x}_\tau, \tau)\]

架构采用PVCNN (Point-Voxel CNN)，在ScanNet的706个训练场景上训练，每步随机采样5120个点，总扩散步数200，单V100训练100k迭代。

推理集成策略：在ACE训练的第5k步后开始施加扩散先验；将扩散时间步 \(T/20\) 对齐到5k步并线性插值到0；对重投影误差小于30像素的点不施加先验（认为已有充分多视角约束）。

损失函数¶

最终优化目标为：\(L = L_{\text{reproj}} + L_{\text{reg}}\)

其中 \(L_{\text{reg}}\) 可选以上三种先验之一。先验通过 \(\lambda_{\text{reg}}\) 平衡权重。扩散先验通过梯度形式直接作用于场景坐标的优化过程。

实验关键数据¶

主实验：SfM重建 (ScanNet + Indoor6)¶

方法	注册率↑	ATE/RPE(cm)↓	中位误差(cm/°)↓	PSNR 1/7↑	PSNR 60/60↑
ACE0 (RGB)	98.1%	26.6/4.0	19.7/9.0	30.2	22.3
+ Laplace NLL	98.9%	25.4/3.5	17.5/8.8	30.2	22.2
+ Laplace WD	98.7%	25.9/3.6	17.5/6.8	30.3	21.7
+ Diffusion	98.6%	26.5/3.8	18.8/8.9	30.2	22.4
ACE0 + DSAC* (RGB-D)	96.2%	29.2/6.0	20.9/5.9	30.0	21.9
+ Laplace NLL (RGB-D)	98.9%	18.3/3.5	12.8/4.4	30.6	22.9

Indoor6数据集上扩散先验效果尤为突出：注册率从57.1%提升到61.8%(+4.7%)，PSNR从13.5提升到14.6dB(+1.1dB)。

重定位实验 (7Scenes)¶

方法	训练时间	模型大小	平均精度(5cm/5°)↑
ACE	5min	4MB	97.1%
+ Laplace NLL	4.5min	4MB	97.3%
+ Laplace WD	4.5min	4MB	97.2%
+ Diffusion	8min	4MB	97.7%
GLACE	6min	9MB	95.6%
+ Diffusion	9min	9MB	95.9%

在最困难的Stairs场景上，扩散先验将ACE的精度从81.9%提升到86.2%(+4.3%)。

消融与关键发现¶

深度分布先验简化了优化目标，甚至略微减少训练时间（5min→4.5min），同时提升性能
扩散先验增加约3分钟训练时间（5min→8min），但提供最强的全局正则化信号
RGB-D先验的概率化软约束显著优于DSAC*的硬切换策略：ATE从29.2cm降至18.3cm
先验仅在训练阶段使用，不影响推理时间和模型大小
扩散模型仅在约700个室内场景上训练，生成质量有限，但作为先验已足够有效
对重投影误差小于30像素的点跳过扩散先验，避免干扰已有充分约束的区域

亮点与洞察¶

概率化重新解释是本文最优雅的贡献——将SCR训练统一到最大后验(MAP)框架下，使得各种先验的引入变得自然且有理论依据，无需逐一设计ad-hoc的正则化策略
扩散模型作为先验而非生成器的思路很有启发性：即使生成质量不高的3D扩散模型，其学到的分布梯度仍能有效引导重建。这降低了对3D扩散模型保真度的要求
训练时先验、推理时无开销的设计非常实用，完美保持了ACE系列方法的推理效率优势
RGB-D先验结果表明，概率化软约束比硬切换策略更适合融合多模态信息，这一洞察可推广到其他多模态融合场景
扩散先验与SCR训练过程的对齐策略（5k步开始、线性插值时间步、跳过低误差点）设计精巧，体现了对两个过程特性的深入理解

局限性¶

仅验证室内场景：先验在ScanNet上拟合/训练，对室外场景需要不同的深度分布模型和更多样化的训练数据
扩散模型表达力有限：使用PVCNN且仅在约700个场景上训练，生成的点云缺乏细节，对复杂场景布局的编码能力有限
扩散先验未引入条件信号：无条件扩散模型提供的是通用先验，加入图像条件或语义条件可能使引导更精准
Indoor6数据集上结果方差较大，难以得出确定性结论
深度分布先验假设Laplace分布族，对于多模态深度分布（如多层楼）可能不够灵活

评分¶

新颖性: ⭐⭐⭐⭐ — 概率化重新解释SCR训练并引入多种先验，思路清晰有理论深度
实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种先验变体、SfM和重定位双任务验证，消融充分
写作质量: ⭐⭐⭐⭐⭐ — 动机阐述清晰，概率框架推导优雅，实验组织有条理
价值: ⭐⭐⭐⭐ — 即插即用的先验策略对SCR社区有直接实用价值，概率化视角具有方法论启发