LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory¶

日期: 2026-03-03
arXiv: 2603.03269
代码: https://LoGeR-project.github.io/
领域: 3D视觉
关键词: 长序列3D重建, 混合记忆, TTT, 滑动窗口注意力, 前馈式重建

一句话总结¶

LoGeR 提出混合记忆架构——参数化 TTT 锚定全局坐标系防止尺度漂移 + 非参数化滑动窗口注意力保持局部对齐精度，在 128 帧训练后可泛化到 19k 帧推理，在 KITTI 上 ATE 降低 74%（72.86→18.65）。

领域现状：几何基础模型（DUSt3R、VGGT、π³）通过前馈推理实现强大的短窗口重建，但受限于二次注意力复杂度，无法扩展到分钟级视频。
现有痛点：(1) "上下文墙"——双向注意力的二次复杂度限制了上下文长度；(2) "数据墙"——训练数据只有短序列（几十到百帧），模型缺乏长程依赖建模能力；(3) 推理时启发式（如 FastVGGT）缓解了内存瓶颈，但在大规模场景仍完全失败。
核心矛盾：单一记忆策略无法同时满足三个需求——(i) 窗口内高保真双向推理，(ii) 相邻块间的无损精确对齐，(iii) 跨千帧的全局一致性。循环方法（CUT3R）把所有历史压缩到单一有损隐态，丢失局部细节；朴素拼接保留局部但没有长程记忆。
切入角度：分块处理保持"分布内"推理 + 混合记忆跨块传播信息。TTT 的参数化记忆做全局一致性（压缩但无限感受野），SWA 做局部精确对齐（无损但有限范围）。
核心 idea 一句话：用 TTT 参数化记忆 + SWA 非参数化记忆的混合架构突破 context wall 和 data wall。

将视频分为块（chunk），每块内用强双向几何骨干（π³）做高质量密集预测。跨块信息传播通过混合记忆模块：SWA 层在相邻块间传递无损特征，TTT 层跨所有块维护全局参数化记忆。128 帧训练，最长推理到 19k 帧。

混合记忆模块（每个 block 内的结构）：
- Per-frame attention：每帧独立自注意力提取空间特征
- SWA（稀疏插入 4 层）：当前块和前一块的 token 做注意力，建立无损信息高速通道
- TTT 层（chunk-wise）：快权重 \(W^m\) 汇总到第 \(m\) 块的信息
- Apply：\(\tilde{H} = H + f_{W^m}(\text{LN}(H))\)（注入历史记忆）
- Update：\(W^{m+1} = \mathcal{U}(W^m; H)\)（存储当前块信息）
双向注意力：块内全连接注意力做强几何推理
TTT 的长程压缩记忆：
- SwiGLU 架构 + Muon 优化器做快权重更新
- 理论上无限感受野，压缩粗粒度几何信息（场景尺度、全局结构）
- 超长序列可选周期性状态重置防止漂移
SWA 的短程无损记忆：
- 只在相邻块之间做注意力，计算和内存有界
- 只插入 4 层，保持计算效率
- 传递高精度特征用于相邻块边界对齐

"突破 context wall 和 data wall"：短序列训练 + 混合记忆 = 超长序列泛化，这个 insight 对所有长序列视觉任务都有启发
TTT + SWA 的互补设计是核心贡献：TTT 做"粗而远"，SWA 做"精而近"——类似人类的远程方向感 + 近处精确定位
VBR 基准的引入（8k-19k 帧，最长 11.5km）填补了长序列 3D 重建评估的空白