CVPR 2025 3D视觉 structure-from-motion monocular depth surface normals COLMAP low overlap symmetry rejection

MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion¶

会议: CVPR 2025
arXiv: 2504.20040
代码: github.com/cvg/mpsfm
领域: 3d_vision
关键词: structure-from-motion, monocular depth, surface normals, COLMAP, low overlap, symmetry rejection

一句话总结¶

将单目深度和法线先验紧密集成到经典增量 SfM 中，通过不确定性传播和交替优化突破三视图轨迹的根本限制，首次实现仅凭两视图轨迹的可靠 3D 重建，在极端低重叠和低视差场景下显著超越所有现有方法。

研究背景与动机¶

领域现状: SfM 经过数十年发展，COLMAP 等系统在常规条件下表现优异。但面对极端视角变化（低重叠、低视差、高对称性场景），仍然容易失败。

现有痛点: (1) COLMAP/GLOMAP 等所有 SOTA 系统根本性地要求三视图重叠和轨迹才能保证跨视图一致的 3D 重建尺度；(2) 非专业用户很难在拍摄时确保足够的视角重叠和变化；(3) 建筑室内场景中的对称结构容易导致错误匹配和灾难性重建失败。

核心矛盾: 经典 SfM 的三视图轨迹要求是根本性的数学约束（用于确定跨视图一致尺度），单纯改进匹配不能解决后续重建算法的局限性。

本文目标: 让 SfM 能在极低重叠（甚至零三视图重叠）的条件下可靠工作，使非专业用户的随手拍也能重建。

切入角度: 利用单目深度估计的最新进展提供尺度先验，将两视图匹配点通过深度提升到 3D 来约束尺度，从而打破三视图轨迹的硬约束。

方法详解¶

整体框架¶

基于 COLMAP 增量 SfM 框架进行深度修改： 1. 输入：图像集 + 内参 + 单目深度图/法线图/置信度图 + 稀疏/密集特征匹配 2. 两视图初始化：优先用相对位姿，低视差时用深度提升+PnP 估计绝对位姿 3. 增量注册：利用深度提升的单视图 3D 点（无需三视图轨迹） 4. 交替优化：法线积分+深度约束 ↔ BA+深度正则化 5. 深度一致性检查：拒绝因对称等导致的错误注册

关键设计¶

1. 两视图初始化与单视图点提升¶

低视差处理: 当找不到足够视差的图像对时，用单目深度将特征点提升到 3D，通过 PnP 估计绝对位姿——彻底绕开了低视差的限制
初始 3D 点: 低视差内点通过深度提升，其余通过三角化，两种方式互补
深度对齐: 通过中值统计计算缩放因子 \(D_i^* = D_i \cdot \text{median}(\hat{D}_i(X_k) / D_i(x_j))\) 将单目深度对齐到多视图尺度

2. 交替优化的联合精化¶

总体目标函数: \(\arg\min_{\mathcal{P}, \mathcal{X}, \mathcal{D}^*} C_{BA} + C_{reg} + C_{int}\)

\(C_{BA}\): 标准 BA 重投影误差（Smooth-L1 损失），使用 Mahalanobis 距离
\(C_{reg}\): 深度正则化，惩罚 3D 点深度与精化深度图的偏差（Cauchy 鲁棒损失）
\(C_{int}\): 深度积分，结合单目深度先验和双边法线积分，以不确定性加权

交替策略: (1) 固定 3D 点，优化每张图像的精化深度（GPU）；(2) 固定深度图，联合优化位姿和 3D 点（CPU，Ceres）。多轮交替保持线性摊销运行时。

3. 深度一致性检查用于对称拒绝¶

将新注册图像的深度图投影到重叠图像，检查前向-后向不一致像素比例
超过阈值 \(\hat{\beta}\) 则拒绝该图像注册——有效识别因对称导致的错误位姿
在注册时和最终阶段都执行检查

损失函数¶

三项优化目标：

\[C_{BA} = \sum_{i,j,k} \rho_{BA}(\|\pi(K_i, P_i, X_k) - x_j\|^2_{\Sigma_{x_j}})\]

\[C_{reg} = \sum_{i,j,k} \rho_{reg}(\|\hat{D}_i(X_k) - D_i^*(x_j)\|^2)\]

\[C_{int} = \sum_{i,u,v} [\rho_{prior}(\|D_i^* - D_i\|^2_{\Sigma_{D_i}}) + \rho_{int}(\|N_i - \Delta D_i^*\|^2_{\Sigma_{N_i}})]\]

所有项都使用不确定性加权和鲁棒损失函数，确保对噪声先验的鲁棒性。

实验关键数据¶

主实验表：ETH3D 低重叠 SfM（Table 1，位姿 AUC@1/5/20°）¶

匹配方式	方法	零重叠	<5% 重叠	<10% 重叠	全部图像
SP+LG	COLMAP	7.9/12.7/14.6	12.0/19.8/23.2	44.9/60.3/65.0	67.2/80.6/83.9
SP+LG	GLOMAP	8.4/15.8/22.5	12.1/25.3/35.7	50.1/66.7/71.8	67.5/78.5/82.3
SP+LG	Ours	27.3/55.9/71.8	30.0/56.4/70.1	57.0/79.1/86.0	74.3/88.3/92.0
MASt3R	M-SfM	20.1/39.7/52.2	19.8/37.3/48.1	31.4/50.4/59.2	50.5/67.9/74.1
MASt3R	Ours	34.9/67.2/81.7	37.7/67.8/80.6	55.5/79.3/86.6	70.3/88.2/93.6

SMERF 数据集（Table 2）¶

匹配	方法	最低重叠	高重叠
SP+LG	COLMAP	2.2/4.2/4.9	42.9/55.4/59.5
SP+LG	Ours	9.2/41.0/69.8	47.3/79.3/90.6

消融实验（Table 5）¶

配置	ETH3D 最低重叠	ETH3D 全部	SMERF 最低	SMERF 高
Full	27.3/55.9/71.8	74.3/88.3/92.0	9.2/41.0/69.8	47.3/79.3/90.6
No depth refine	26.8/55.2/69.9	71.9/87.6/91.7	8.4/37.6/66.7	32.2/63.6/82.0
No depth reg.	23.6/49.6/65.9	75.1/88.7/92.2	5.7/21.0/45.9	45.5/64.1/73.0
No lifting	10.6/16.1/18.7	74.1/87.2/90.6	1.0/1.7/2.1	51.9/69.6/75.2

关键发现¶

低重叠场景质变: 在零三视图重叠条件下，Ours AUC@20°=71.8% vs COLMAP 14.6%——5 倍提升
保持高重叠场景性能: 全部图像 AUC@20°=92.0% vs COLMAP 83.9%——即使在常规条件下也有显著改善
点提升是核心: 去掉单视图点提升（no lifting）后低重叠性能崩溃（71.8→18.7），证明这是打破三视图限制的关键
不确定性至关重要: 有深度不确定性 vs 无不确定性，SMERF最低重叠AUC@20°从69.8降至65.8
深度模型鲁棒性: 即使使用较弱的深度模型（DepthAnything-v2），仍能获得不错的结果（ETH3D 全部AUC@20°=89.9%），但带不确定性的 Metric3D-v2 最优

亮点与洞察¶

根本性突破: 首次打破了经典 SfM 对三视图轨迹的硬性要求——这是 SfM 领域十几年来最fundamental的限制之一
经典与学习的优雅结合: 不替换经典 SfM 流程，而是在每个关键环节注入单目先验，保持了增量 SfM 的通用性和可扩展性
不确定性传播的严谨性: 从单目先验到深度积分到 BA，全链路的不确定性传播确保了对噪声先验的鲁棒性
对称拒绝: 密集深度一致性检查首次为 SfM 提供了有效的对称误判防御机制
实用价值: 让非专业用户的"随手拍"也能可靠重建——大幅降低了 SfM 的使用门槛

局限性¶

依赖较好的单目深度估计（Metric3D-v2），深度模型质量直接影响效果
交替优化增加了计算时间，相比纯 COLMAP 更慢
物体中心场景（如 Tanks & Temples）中 AUC@1° 弱于 MASt3R-SfM，因为缺少前景匹配
仍假设已知相机内参

评分¶

⭐⭐⭐⭐⭐ (9/10)

创新性: ⭐⭐⭐⭐⭐ — 解决了 SfM 领域最根本的限制之一，学术贡献突出
实验: ⭐⭐⭐⭐⭐ — 多数据集、多匹配方法、详尽消融，结果有说服力
写作: ⭐⭐⭐⭐⭐ — 问题定义清晰，公式推导严谨
实用性: ⭐⭐⭐⭐⭐ — 代码开源，直接降低 SfM 使用门槛，对游戏/AR/机器人等领域有重要价值