跳转至

MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

会议: CVPR 2025
arXiv: 2504.20040
代码: github.com/cvg/mpsfm
领域: 3d_vision
关键词: structure-from-motion, monocular depth, surface normals, COLMAP, low overlap, symmetry rejection

一句话总结

将单目深度和法线先验紧密集成到经典增量 SfM 中,通过不确定性传播和交替优化突破三视图轨迹的根本限制,首次实现仅凭两视图轨迹的可靠 3D 重建,在极端低重叠和低视差场景下显著超越所有现有方法。

研究背景与动机

领域现状: SfM 经过数十年发展,COLMAP 等系统在常规条件下表现优异。但面对极端视角变化(低重叠、低视差、高对称性场景),仍然容易失败。

现有痛点: (1) COLMAP/GLOMAP 等所有 SOTA 系统根本性地要求三视图重叠和轨迹才能保证跨视图一致的 3D 重建尺度;(2) 非专业用户很难在拍摄时确保足够的视角重叠和变化;(3) 建筑室内场景中的对称结构容易导致错误匹配和灾难性重建失败。

核心矛盾: 经典 SfM 的三视图轨迹要求是根本性的数学约束(用于确定跨视图一致尺度),单纯改进匹配不能解决后续重建算法的局限性。

本文目标: 让 SfM 能在极低重叠(甚至零三视图重叠)的条件下可靠工作,使非专业用户的随手拍也能重建。

切入角度: 利用单目深度估计的最新进展提供尺度先验,将两视图匹配点通过深度提升到 3D 来约束尺度,从而打破三视图轨迹的硬约束。

方法详解

整体框架

基于 COLMAP 增量 SfM 框架进行深度修改: 1. 输入:图像集 + 内参 + 单目深度图/法线图/置信度图 + 稀疏/密集特征匹配 2. 两视图初始化:优先用相对位姿,低视差时用深度提升+PnP 估计绝对位姿 3. 增量注册:利用深度提升的单视图 3D 点(无需三视图轨迹) 4. 交替优化:法线积分+深度约束 ↔ BA+深度正则化 5. 深度一致性检查:拒绝因对称等导致的错误注册

关键设计

1. 两视图初始化与单视图点提升

  • 低视差处理: 当找不到足够视差的图像对时,用单目深度将特征点提升到 3D,通过 PnP 估计绝对位姿——彻底绕开了低视差的限制
  • 初始 3D 点: 低视差内点通过深度提升,其余通过三角化,两种方式互补
  • 深度对齐: 通过中值统计计算缩放因子 \(D_i^* = D_i \cdot \text{median}(\hat{D}_i(X_k) / D_i(x_j))\) 将单目深度对齐到多视图尺度

2. 交替优化的联合精化

总体目标函数: \(\arg\min_{\mathcal{P}, \mathcal{X}, \mathcal{D}^*} C_{BA} + C_{reg} + C_{int}\)

  • \(C_{BA}\): 标准 BA 重投影误差(Smooth-L1 损失),使用 Mahalanobis 距离
  • \(C_{reg}\): 深度正则化,惩罚 3D 点深度与精化深度图的偏差(Cauchy 鲁棒损失)
  • \(C_{int}\): 深度积分,结合单目深度先验和双边法线积分,以不确定性加权

交替策略: (1) 固定 3D 点,优化每张图像的精化深度(GPU);(2) 固定深度图,联合优化位姿和 3D 点(CPU,Ceres)。多轮交替保持线性摊销运行时。

3. 深度一致性检查用于对称拒绝

  • 将新注册图像的深度图投影到重叠图像,检查前向-后向不一致像素比例
  • 超过阈值 \(\hat{\beta}\) 则拒绝该图像注册——有效识别因对称导致的错误位姿
  • 在注册时和最终阶段都执行检查

损失函数

三项优化目标:

\[C_{BA} = \sum_{i,j,k} \rho_{BA}(\|\pi(K_i, P_i, X_k) - x_j\|^2_{\Sigma_{x_j}})\]
\[C_{reg} = \sum_{i,j,k} \rho_{reg}(\|\hat{D}_i(X_k) - D_i^*(x_j)\|^2)\]
\[C_{int} = \sum_{i,u,v} [\rho_{prior}(\|D_i^* - D_i\|^2_{\Sigma_{D_i}}) + \rho_{int}(\|N_i - \Delta D_i^*\|^2_{\Sigma_{N_i}})]\]

所有项都使用不确定性加权和鲁棒损失函数,确保对噪声先验的鲁棒性。

实验关键数据

主实验表:ETH3D 低重叠 SfM(Table 1,位姿 AUC@1/5/20°)

匹配方式 方法 零重叠 <5% 重叠 <10% 重叠 全部图像
SP+LG COLMAP 7.9/12.7/14.6 12.0/19.8/23.2 44.9/60.3/65.0 67.2/80.6/83.9
SP+LG GLOMAP 8.4/15.8/22.5 12.1/25.3/35.7 50.1/66.7/71.8 67.5/78.5/82.3
SP+LG Ours 27.3/55.9/71.8 30.0/56.4/70.1 57.0/79.1/86.0 74.3/88.3/92.0
MASt3R M-SfM 20.1/39.7/52.2 19.8/37.3/48.1 31.4/50.4/59.2 50.5/67.9/74.1
MASt3R Ours 34.9/67.2/81.7 37.7/67.8/80.6 55.5/79.3/86.6 70.3/88.2/93.6

SMERF 数据集(Table 2)

匹配 方法 最低重叠 高重叠
SP+LG COLMAP 2.2/4.2/4.9 42.9/55.4/59.5
SP+LG Ours 9.2/41.0/69.8 47.3/79.3/90.6

消融实验(Table 5)

配置 ETH3D 最低重叠 ETH3D 全部 SMERF 最低 SMERF 高
Full 27.3/55.9/71.8 74.3/88.3/92.0 9.2/41.0/69.8 47.3/79.3/90.6
No depth refine 26.8/55.2/69.9 71.9/87.6/91.7 8.4/37.6/66.7 32.2/63.6/82.0
No depth reg. 23.6/49.6/65.9 75.1/88.7/92.2 5.7/21.0/45.9 45.5/64.1/73.0
No lifting 10.6/16.1/18.7 74.1/87.2/90.6 1.0/1.7/2.1 51.9/69.6/75.2

关键发现

  1. 低重叠场景质变: 在零三视图重叠条件下,Ours AUC@20°=71.8% vs COLMAP 14.6%——5 倍提升
  2. 保持高重叠场景性能: 全部图像 AUC@20°=92.0% vs COLMAP 83.9%——即使在常规条件下也有显著改善
  3. 点提升是核心: 去掉单视图点提升(no lifting)后低重叠性能崩溃(71.8→18.7),证明这是打破三视图限制的关键
  4. 不确定性至关重要: 有深度不确定性 vs 无不确定性,SMERF最低重叠AUC@20°从69.8降至65.8
  5. 深度模型鲁棒性: 即使使用较弱的深度模型(DepthAnything-v2),仍能获得不错的结果(ETH3D 全部AUC@20°=89.9%),但带不确定性的 Metric3D-v2 最优

亮点与洞察

  1. 根本性突破: 首次打破了经典 SfM 对三视图轨迹的硬性要求——这是 SfM 领域十几年来最fundamental的限制之一
  2. 经典与学习的优雅结合: 不替换经典 SfM 流程,而是在每个关键环节注入单目先验,保持了增量 SfM 的通用性和可扩展性
  3. 不确定性传播的严谨性: 从单目先验到深度积分到 BA,全链路的不确定性传播确保了对噪声先验的鲁棒性
  4. 对称拒绝: 密集深度一致性检查首次为 SfM 提供了有效的对称误判防御机制
  5. 实用价值: 让非专业用户的"随手拍"也能可靠重建——大幅降低了 SfM 的使用门槛

局限性

  1. 依赖较好的单目深度估计(Metric3D-v2),深度模型质量直接影响效果
  2. 交替优化增加了计算时间,相比纯 COLMAP 更慢
  3. 物体中心场景(如 Tanks & Temples)中 AUC@1° 弱于 MASt3R-SfM,因为缺少前景匹配
  4. 仍假设已知相机内参

相关工作与启发

  • COLMAP: 经典增量 SfM 的标杆——本文在其基础上做最小必要修改实现最大收益
  • MASt3R-SfM: 端到端学习 SfM——擅长特定场景但通用性不如经典方法
  • Metric3D-v2: 关键单目深度先验——其不确定性估计对本方法至关重要
  • 启发: 单目先验+经典优化的紧密耦合是当前最有效的 SfM 增强范式,未来深度模型的进步将直接惠及本方法

评分

⭐⭐⭐⭐⭐ (9/10)

  • 创新性: ⭐⭐⭐⭐⭐ — 解决了 SfM 领域最根本的限制之一,学术贡献突出
  • 实验: ⭐⭐⭐⭐⭐ — 多数据集、多匹配方法、详尽消融,结果有说服力
  • 写作: ⭐⭐⭐⭐⭐ — 问题定义清晰,公式推导严谨
  • 实用性: ⭐⭐⭐⭐⭐ — 代码开源,直接降低 SfM 使用门槛,对游戏/AR/机器人等领域有重要价值

相关论文