Light3R-SfM: Towards Feed-forward Structure-from-Motion¶
会议: CVPR 2025
arXiv: 2501.14914
代码: 无
领域: 3D视觉/SfM
关键词: 前馈SfM, 全局对齐, 注意力机制, 最短路径树, 点图回归
一句话总结¶
Light3R-SfM提出了首个前馈式端到端SfM框架,通过可学习的潜在全局对齐模块替代传统的优化式全局对齐,结合基于检索分数的最短路径树构建场景图,在Tanks&Temples 200图设置下仅需33秒完成重建(比MASt3R-SfM快49倍),同时保持相当的精度。
研究背景与动机¶
领域现状:SfM从无序图像集恢复相机位姿和3D场景结构,是NeRF、3DGS等下游任务的基础。传统方法分为增量式(COLMAP逐步添加图像)和全局式(GLOMAP联合对齐所有相机)。近年DUSt3R提出通过点图回归实现双视角3D重建,MASt3R-SfM进一步用图像检索和稀疏匹配优化改进,但仍依赖昂贵的迭代优化做全局对齐。
现有痛点:基于优化的全局对齐(bundle adjustment等)是准确3D重建的关键,但计算代价极高——MASt3R-SfM处理200张图需要约27分钟,对中等规模图像集的内存和时间需求都很大。现有前馈方法Spann3R使用显式空间记忆bank,但受限于固定容量且容易产生累积漂移。
核心矛盾:准确的全局对齐需要昂贵的优化过程(约束多视角一致性+bundle adjustment),但前馈推理要求一次前向传播得到结果。如何在不做优化的前提下实现全局一致的相机位姿估计?
本文目标 (1) 用可学习的前馈方式替代优化式全局对齐;(2) 在保持精度的同时大幅降低运行时间;(3) 扩展到大规模图像集(数百张图像)。
切入角度:作者观察到如果在编码阶段就通过注意力机制在所有图像特征之间共享全局信息,那么后续的双视角解码就能隐式地输出全局一致的点图,避免了显式的全局优化。关键挑战是如何让注意力机制在大规模图像集上高效运行。
核心 idea:在图像编码和3D解码之间插入一个可扩展的潜在全局对齐模块,通过全局token的自注意力+向局部token的交叉注意力实现隐式全局信息共享,替代昂贵的优化式对齐。
方法详解¶
整体框架¶
输入无序图像集合,先用图像编码器提取每张图像的token特征。然后通过潜在全局对齐模块(L层self-attention on global tokens + cross-attention to local tokens)在所有图像之间交换全局信息。利用编码特征的平均池化计算图像间相似度矩阵,构建最短路径树(SPT)作为场景图。对SPT中每条边的图像对执行双视角点图解码,得到局部对齐的点图和置信度。最后通过BFS遍历SPT,逐条边用Procrustes对齐积累为全局重建。
关键设计¶
-
潜在全局对齐模块 (Latent Global Alignment):
- 功能:在特征空间中实现所有图像之间的全局信息共享,使后续的双视角解码能输出隐式全局对齐的点图
- 核心思路:对每张图像的token \(F_i^{(0)}\) 做空间平均池化得到全局token \(g_i^{(0)}\)。L层堆叠:(1) 所有全局token之间做self-attention:\(\{g_i^{(l+1)}\} = \text{Self}(\{g_i^{(l)}\})\);(2) 每张图像的局部token与所有全局token做cross-attention:\(F_i^{(l+1)} = \text{Cross}(F_i^{(l)}, \{g_i^{(l+1)}\})\)。最后残差连接 \(F_i = F_i^{(0)} + F_i^{(L)}\)
- 设计动机:naive的所有token自注意力复杂度为 \(O((N \times T)^2)\),不可扩展;通过全局token因式分解将复杂度降为 \(O(N^2 + N \times T)\),对 \(N \approx T\) 时实际常数因子显著减小
-
最短路径树场景图 (Shortest Path Tree):
- 功能:以最少的边(N-1条)连接所有图像,同时最小化累积漂移
- 核心思路:用编码特征的平均池化计算余弦相似度矩阵 \(S_{ij}\),以负相似度为权重运行Dijkstra算法构建SPT。选择与所有其他节点总代价最小的节点作为根:\(\arg\min_j \sum_i -S_{ij}\)。SPT与MST的区别在于SPT最小化从根到每个节点的路径代价,产生更扁平的树结构
- 设计动机:MST最小化总边权但可能产生深度大的树,在BFS遍历时导致累积漂移严重;SPT产生更扁平的树,减少了错误传播路径长度。且仅需N-1条边,比完全连接图的解码量大幅减少
-
全局无优化重建 (Global Optimization-free Reconstruction):
- 功能:将双视角局部点图积累为全局一致重建
- 核心思路:BFS遍历SPT,第一条边初始化全局重建。对后续每条边(k,l),节点k已有全局点图 \(X^k\),将其与当前边预测的 \(X^{k,k}\) 做Procrustes对齐估计刚体变换 \(P_k\)(用\(\log C^k\)做加权),然后将节点l的点图变换到全局坐标系 \(X^l = P_k^{-1} X^{k,l}\)。置信度通过逐元素几何均值更新 \(C^k := C^k \odot C^{k,k}\)
- 设计动机:Procrustes对齐有闭式解,计算开销线性于图像数可忽略,远比bundle adjustment高效
损失函数 / 训练策略¶
联合监督局部和全局点图:\(\mathcal{L} = \mathcal{L}_{\text{pair}} + \lambda \mathcal{L}_{\text{global}}\)(\(\lambda=0.1\))。局部损失对每条边的两个点图用置信度加权L2:\(\mathcal{L}_{\text{conf}} = \sum_p C_p \|X_p - \bar{X}_p\| - \alpha C_p\)。全局损失先Procrustes对齐全局点图到GT坐标系,再计算同样的置信度加权损失。全局损失隐式监督了位姿精度。
实验关键数据¶
主实验¶
Tanks & Temples, 200 images:
| 方法 | 对齐方式 | RRA@5↑ | RTA@5↑ | ATE↓ | Reg.↑ | Time(s)↓ |
|---|---|---|---|---|---|---|
| COLMAP | OPT | 64.7 | 57.7 | 0.019 | 97.0 | - |
| GLOMAP | OPT | 73.5 | 74.8 | 0.016 | 100 | 536.7 |
| VGGSfM | OPT | 84.5 | 86.3 | 0.007 | 47.6 | 1511.6 |
| MASt3R-SfM | OPT | 68.2 | 68.4 | 0.013 | 100 | 1609.0 |
| Spann3R | FFD | 22.8 | 28.6 | 0.019 | 100 | 60.4 |
| Light3R-SfM | FFD | 52.4 | 53.1 | 0.016 | 100 | 33.4 |
Tanks & Temples, full sequence:
| 方法 | 对齐方式 | RRA@5↑ | RTA@5↑ | ATE↓ | Time(s)↓ |
|---|---|---|---|---|---|
| GLOMAP | OPT | 75.8 | 76.7 | 0.010 | 1977.7 |
| MASt3R-SfM | OPT | 49.2 | 54.0 | 0.011 | 2723.1 |
| Spann3R | FFD | 20.3 | 24.7 | 0.016 | 116.2 |
| Light3R-SfM | FFD | 52.0 | 52.8 | 0.011 | 63.4 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无全局对齐 (DUSt3R baseline) | ATE ~0.03+ | 无全局信息共享,误差大 |
| MST场景图 | ATE略高 | 树深度大导致累积漂移 |
| SPT场景图 | ATE最优 | 更扁平的树减少漂移 |
| 有全局损失 | ATE最佳 | 隐式监督全局一致性 |
| 无全局损失 | ATE下降 | 缺乏全局一致性约束 |
关键发现¶
- Light3R-SfM在前馈方法中遥遥领先Spann3R:200图设置下RRA 52.4 vs 22.8(2.3倍),ATE 0.016 vs 0.019
- 比MASt3R-SfM快49倍(33.4s vs 1609s),ATE仅差0.003(0.016 vs 0.013)
- 100%注册率(所有图都能成功注册),而COLMAP/VGGSfM在大规模设置下可能失败
- 在full sequence设置下Light3R-SfM的RRA甚至超过MASt3R-SfM(52.0 vs 49.2),说明优化方法在图像数很多时也会遇到困难
- SPT比MST更适合累积式重建,因为树更扁平累积漂移更小
亮点与洞察¶
- "全局对齐不用优化,用注意力"的思路是SfM领域的范式转变——将传统的bundle adjustment替换为端到端可学习的注意力机制,从根本上消除了SfM的计算瓶颈。全局token因式分解让这一想法在大规模图像集上可行
- SPT替代MST做场景图构建很巧妙——同样是N-1条边的树结构但树形更扁平,直观上减少了BFS遍历时的误差累积路径。这个简单改进对任何基于树遍历的增量式方法都适用
- 全局损失的设计让训练能隐式监督位姿精度——不需要直接监督位姿参数,通过全局点图对齐后的重建误差间接约束位姿一致性
局限与展望¶
- 精度仍然落后于优化式方法(GLOMAP、MASt3R-SfM),特别是在稠密视角设置下差距更大
- 全局token只是图像token的平均池化,信息压缩可能过于激进
- SPT的根节点选择和BFS遍历顺序对结果有影响,但缺乏系统分析
- 累积式对齐仍会产生漂移,特别是树很深时
- 未集成bundle adjustment后处理——作者认为这是前馈SfM的方向,但实际应用中可能需要可选的优化精炼
- 可以探索自适应场景图构建(不限于N-1条边),在精度和效率间权衡
相关工作与启发¶
- vs MASt3R-SfM: MASt3R-SfM通过稀疏匹配+优化式对齐+bundle adjustment获得最佳精度,但200图需27分钟;Light3R-SfM通过前馈方式33秒完成,精度略低但可接受
- vs Spann3R: Spann3R使用显式spatial memory bank做在线重建,受固定容量限制且易漂移;Light3R-SfM通过注意力实现离线全局信息共享,性能全面超越
- vs DUSt3R: DUSt3R需要穷举所有图像对的双视角重建+优化对齐,不可扩展;Light3R-SfM用SPT减少解码量,用潜在对齐替代优化
- 启发:前馈SfM与优化SfM的关系类似于前馈深度估计与MVS优化的关系——前者更快但精度尚有差距,未来可能通过更大模型和数据逐步缩小
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个实用的前馈式SfM框架,潜在全局对齐模块设计新颖
- 实验充分度: ⭐⭐⭐⭐ 多种图像数设置+多个baseline对比+运行时间分析,但缺少更多数据集验证
- 写作质量: ⭐⭐⭐⭐ 框架清晰,motivation论述有力
- 价值: ⭐⭐⭐⭐⭐ 开创前馈SfM新方向,对大规模3D重建有重要实际价值,49倍加速令人印象深刻
相关论文¶
- [CVPR 2025] Dense-SfM: Structure from Motion with Dense Consistent Matching
- [CVPR 2025] MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion
- [CVPR 2025] ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration
- [CVPR 2025] MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
- [CVPR 2025] FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views