LONG3R: Long Sequence Streaming 3D Reconstruction¶
会议: ICCV 2025
arXiv: 2507.18255
代码: 项目主页
领域: 3D视觉
关键词: 流式3D重建, 点图回归, 时空记忆, 长序列重建, 实时推理
一句话总结¶
提出 LONG3R,一种基于循环记忆机制的流式多视图3D重建模型,通过记忆门控、双源精炼解码器和3D时空记忆三大创新,在保持实时推理速度的同时显著提升长序列重建质量。
研究背景与动机¶
从图像序列中恢复稠密几何是3D计算机视觉的基本任务,广泛应用于机器人、自动驾驶和室内外场景重建。传统方法(SfM、SLAM、MVS)依赖手工设计的流程,工程量大且泛化性有限。近期以 DUSt3R/MASt3R 为代表的端到端神经网络方法通过直接从图像对回归点图(pointmap)取得了突破,Spann3R 进一步将其扩展到流式输入场景,实现了实时处理。
然而 Spann3R 在长序列上存在三个关键瓶颈:
记忆利用不足:记忆每次迭代仅被关注一次,无法有效复用
空间冗余:随着图像累积,记忆中出现大量空间上重复的token
训练策略局限:训练时不支持长序列适应,导致模型在长序列上性能退化严重
LONG3R 针对上述三个问题分别提出了记忆门控、3D时空记忆和两阶段课程训练策略。
方法详解¶
整体框架¶
LONG3R 采用循环网络架构处理流式图像序列。对于每一帧新观测,模型执行以下流程:
- 特征编码:ViT-Large 编码器将输入图像分割为patch并投影为视觉特征token
- 粗解码:粗解码器(Coarse Decoder)利用 PairwiseBlock 与前一帧特征交互,生成粗略3D结构
- 记忆门控:从时空记忆中筛选与当前观测相关的记忆token
- 精炼解码:双源精炼解码器(Dual-Source Refined Decoder)结合相关记忆和下一帧上下文,生成精确点图
- 记忆更新:将当前帧的精炼特征加入记忆库
关键设计一:注意力记忆门控(Attention-based Memory Gating)¶
记忆门控机制承担两个核心功能:聚合全部记忆信息 + 过滤无关记忆token以降低后续解码器的计算量。
具体实现:粗解码器输出 \(F_t^c\) 作为 query,对记忆的 key \(F_{mem}^K\) 和 value \(F_{mem}^V\) 进行交叉注意力计算。通过设定注意力阈值 \(\tau = 5 \times 10^{-4}\),若某记忆token的最大注意力权重低于阈值则被丢弃。实验表明该机制平均可过滤约 27% 的冗余记忆,推理速度从 18 FPS 提升至 21.4 FPS(提升 20%),同时重建精度几乎不受影响。
关键设计二:双源精炼解码器(Dual-Source Refined Decoder)¶
与仅包含 PairwiseBlock 的粗解码器不同,精炼解码器交替使用两种模块:
- 奇数层 — PairwiseBlock:当前帧精炼特征与下一帧粗特征交互,保持时序对齐
- 偶数层 — MemoryBlock:当前帧精炼特征与相关记忆token交互,增强长程时空依赖
这种交替设计避免了将记忆特征和下一帧特征直接拼接时的特征空间不对齐问题。消融实验显示交替(interleaved)架构显著优于拼接(concatenated)架构:在 Replica200 上 Accuracy 从 29.52 降至 13.34 cm(均值),Completeness 从 8.88 降至 3.15 cm。
关键设计三:3D时空记忆(3D Spatio-Temporal Memory)¶
记忆系统包含两个组件:
- 短期时序记忆:存储最近 \(K\) 帧的全部token(key/value),捕捉局部时序信息
- 长期3D空间记忆:管理更早帧的token,通过体素化剪枝控制数量上限(3000 token)
自适应体素大小:由于不同场景尺度各异,预定义体素大小不可行。模型计算每个token与其8邻域的3D欧氏距离均值 \(d_i\),取最小值作为该帧的图像体素大小 \(v_{img}\),再对所有历史帧求均值得到场景体素大小 \(v_{scene}\),在推理过程中持续在线更新。
空间记忆剪枝:3D位置相近的token被分配到同一体素,每个体素仅保留累积注意力权重最高的token。该机制有效平衡了记忆规模与场景空间表示的完整性。
损失函数¶
- \(\mathcal{L}_{conf}\):置信度感知的3D回归损失(继承自 DUSt3R/Spann3R)
- \(\mathcal{L}_{scale}\):尺度损失,鼓励预测点云的平均距离小于真值
两阶段课程学习¶
- 第一阶段:每个视频随机采样5帧训练,学习基本的3D理解能力。AdamW 优化器,学习率 \(1.12 \times 10^{-4}\),batch size 10/GPU,120 epochs,16×A100 训练28小时
- 第二阶段:冻结 ViT 编码器,微调其余模块。先用10帧、再用32帧逐步增长序列长度。学习率降至 \(1 \times 10^{-5}\),各12 epochs,约20小时
实验关键数据¶
主实验:3D重建(224×224 输入)¶
7Scenes / NRGBD 数据集(Tab.1):
| 方法 | 7Scenes Acc↓ | 7Scenes Comp↓ | NRGBD Acc↓ | NRGBD Comp↓ | FPS |
|---|---|---|---|---|---|
| DUSt3R | 3.01 / 1.47 | 5.11 / 2.79 | 3.94 / 2.48 | 5.31 / 3.58 | ≤3 |
| Spann3R | 3.42 / 1.48 | 2.41 / 0.85 | 6.91 / 3.15 | 2.91 / 1.10 | ~22 |
| CUT3R | 7.73 / 3.57 | 7.75 / 1.83 | 12.48 / 5.57 | 6.34 / 2.35 | ~23 |
| LONG3R | 2.57 / 1.14 | 2.08 / 0.73 | 6.66 / 2.54 | 3.11 / 1.21 | ~22 |
Replica 长序列数据集(Tab.2,100帧 / 200帧):
| 方法 | Rep100 Acc↓ | Rep100 Comp↓ | Rep200 Acc↓ | Rep200 Comp↓ | FPS |
|---|---|---|---|---|---|
| Spann3R | 14.08 / 8.88 | 4.67 / 1.61 | 16.29 / 10.17 | 4.02 / 1.16 | ~21 |
| CUT3R | 20.44 / 14.64 | 5.67 / 2.32 | 28.30 / 20.68 | 6.61 / 1.88 | ~23 |
| LONG3R | 11.46 / 7.55 | 3.68 / 1.24 | 11.93 / 7.42 | 2.73 / 0.87 | ~21 |
序列从100帧增加到200帧时,Spann3R Accuracy 均值从14.08恶化到16.29,CUT3R 从20.44恶化到28.30,而 LONG3R 仅从11.46小幅增至11.93,展现出显著的长序列鲁棒性。
相机位姿估计(Tab.3)¶
| 方法 | 7Scenes ATE↓ | ScanNet ATE↓ | TUM ATE↓ |
|---|---|---|---|
| Spann3R | 12.64 | 9.83 | 5.66 |
| CUT3R | 12.40 | 14.27 | 6.25 |
| LONG3R | 8.72 | 6.44 | 5.40 |
在静态场景(7Scenes、ScanNet)上大幅领先,在含动态运动的 TUM 数据集上也保持竞争力。
消融实验¶
记忆门控(Tab.4):移除门控后精度变化极小但 FPS 从21.4降至18.0,印证其主要贡献在效率。
双源解码器架构(Tab.5,Replica200):
| 设计 | Acc Mean↓ | Comp Mean↓ |
|---|---|---|
| 拼接(Concat) | 29.52 | 8.88 |
| 交替(Interleaved) | 13.34 | 3.15 |
3D时空记忆(Tab.6,Replica200):
| 设计 | Acc Mean↓ | Comp Mean↓ |
|---|---|---|
| 仅时序记忆 | 65.75 | 13.24 |
| Spann3R 记忆 | 12.41 | 3.07 |
| LONG3R 记忆 | 11.93 | 2.74 |
移除3D空间记忆后性能严重退化(Accuracy 从11.93暴涨至65.75),证明长期空间记忆对长序列重建不可或缺。
亮点与洞察¶
- 简洁有效的记忆门控:仅用一个注意力阈值即可过滤约27%冗余记忆,实现精度-速度的良好平衡,思路巧妙且工程友好
- 交替注意力优于特征拼接:在多源信息融合场景下,交替式交叉注意力可避免特征空间不对齐,这一设计范式具有广泛的迁移价值
- 自适应体素剪枝:通过在线计算场景体素大小实现无先验的记忆管理,优雅地解决了不同场景尺度适配问题
- 课程训练策略:渐进增长序列长度的思路简单但有效,使模型在有限计算资源下学会处理长序列
- 长序列鲁棒性突出:从100帧到200帧时性能退化幅度远小于所有对比方法,直接验证了方法设计的核心目标
局限性¶
- 首帧依赖:所有预测相对于第一帧定义,当视角偏离首帧过大时可能产生模糊结果
- 动态场景能力不足:由于缺乏动态训练数据,模型难以处理含大幅物体运动的高度动态场景
- 无全局优化/回环检测:作为纯前馈流式方法,累积漂移问题虽被缓解但未根本解决
- 分辨率受限:所有实验均使用 224×224 输入,高分辨率下的表现和效率有待验证
- 训练成本:两阶段训练需 16×A100 约 48 小时,资源需求较高
相关工作与启发¶
- DUSt3R / MASt3R:端到端点图回归的开创性工作,LONG3R 的编码器直接继承 DUSt3R 权重
- Spann3R:首个流式点图重建方法,LONG3R 的直接前身;LONG3R 在其基础上全面改进了记忆机制和解码策略
- CUT3R:使用持久状态token的循环重建方法,但在长序列上漂移严重
- MV-DUSt3R:离线多视图方法,精度高但 FPS 极低(≤7),不适合实时场景
- 启发:时空记忆的设计思路(短期时序+长期空间+自适应剪枝)可迁移到视频理解、SLAM等其他需要长程记忆管理的任务中
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 创新性 | 7 | 三个创新点各自增量不大但组合效果显著 |
| 技术深度 | 8 | 记忆门控、自适应体素、交替解码器设计精巧 |
| 实验充分性 | 8 | 多数据集、多指标、完整消融,每个组件都有验证 |
| 写作质量 | 7 | 结构清晰,图表丰富,部分公式密集但整体可读 |
| 实用价值 | 8 | 实时流式重建在机器人和AR/VR中有直接应用价值 |
| 总评 | 7.5 | 扎实的系统性工作,有效解决了流式长序列3D重建的核心瓶颈 |
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [CVPR 2026] LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
- [ICCV 2025] FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
- [ICCV 2025] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
- [CVPR 2025] FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT
- [ICCV 2025] Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images