OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects¶
会议: NeurIPS 2025
arXiv: 2510.20605
代码: https://markhh.com/OnlineSplatter (有)
领域: 3D视觉
关键词: 在线3D重建, 3D高斯溅射, 无位姿重建, 自由移动物体, 记忆模块
一句话总结¶
提出 OnlineSplatter,一个无需相机位姿、深度先验或全局优化的前馈式在线3D重建框架,通过双键记忆模块(外观-几何潜在键 + 方向键)实现自由移动物体的恒定时间增量重建。
研究背景与动机¶
从单目视频实时重建自由移动物体是计算机视觉的基础挑战(应用于机器人、AR等)。现有方法面临以下困境:
基于优化的方法(BARF、BundleSDF、Fmov):需要全局 bundle adjustment,无法在线实时运行;BundleSDF 还需要深度真值输入。
基于扩散的生成方法(LRM、InstantMesh):依赖学到的先验"幻觉"看不到的部分,不适合感知任务。
前馈点图方法(DUSt3R、NoPoSplat、Spann3R):假设静态场景,将移动物体视为异常值;隐式依赖大面积背景表面。
核心矛盾:在线重建需要因果处理(每帧到达即更新),但现有方法要么需要全局优化、要么假设静态场景、要么需要额外传感器。
本文切入角度:设计一个以物体为中心的前馈框架,用第一帧定义标准坐标系,通过双键记忆模块在恒定时间复杂度下增量融合时序信息,无需位姿、深度或背景信息。
方法详解¶
整体框架¶
每个时间步 \(t\):输入 RGB 帧 \(V_t\) → 在线视频分割获得物体掩码 → 双编码器提取 patch 特征 → OnlineSplatter Transformer 联合处理参考帧、当前帧和记忆 token → 解码为像素对齐的 3D 高斯 → 更新物体记忆。整个过程前馈式、恒定时间复杂度。
关键设计¶
-
双编码器图像特征提取:
- 冻结的 DINO 编码器提供强自监督外观线索
- 可训练的同架构编码器捕获互补的几何线索
- 拼接两者特征:\(f_{vt} = \text{Concat}(\text{Encoder}_1^I(V_t'), \text{Encoder}_2^I(V_t'))\)
- 设计动机:DINO 有强视觉先验但缺乏 3D 感知
-
双键 3D 物体记忆:核心创新
- 潜在键 \(\mathbf{k}_t^{(L)}\):轻量级编码器从 patch 特征学习,捕获视觉-几何线索
- 方向键 \(\mathbf{k}_t^{(D)}\):预训练的零样本 3D 方向估计器给出物体朝向,转为单位方向向量
- 值 \(\mathbf{v}_t^{(L)}\):从 Transformer 输出 token 编码
- 双用途读取:
- 方向对齐读取:检索潜在键和方向键都相似的记忆(当前视角信息)
- 方向互补读取:检索潜在键相似但方向相反的记忆(互补视角信息)
- 相似度公式:\(s_{i,t}^{(\text{align})} = (\mathbf{q}_t^{(L)\top}\mathbf{k}_i^{(L)}) \cdot \mathbf{q}_t^{(D)\top}\mathbf{k}_i^{(D)} \cdot \frac{1}{\tau_t}\)
-
记忆稀疏化机制:
- 当记忆达到容量上限 \(S\) 时,裁剪 20% 最不有用的条目
- 综合两个维度:使用率(交叉注意力权重累积)和空间覆盖度(方向键的平均角距离)
- 从高覆盖子集中移除低使用率条目,平衡保留独特视角和丢弃冗余
-
高斯解码与渲染:
- Transformer 输出解码为 4N 个高斯:\(\mathbf{G}_{obj,t}^{4N} = \{\mathbf{G}_{mem,t}^{2N}, \mathbf{G}_{ref,t}^{N}, \mathbf{G}_{src,t}^{N}\}\)
- 非累积式:每步直接输出完整物体表示,避免全局聚合
- 帧级子集各自渲染对应视角,鼓励各高斯组专注于对应可见部分
损失函数 / 训练策略¶
- 两阶段训练:Warm-up(无记忆模块,250K步)→ Main(含记忆模块,500K步)
- 光度损失 \(\mathcal{L}_\text{photo}\):GT图像 vs 渲染图像 MSE + 背景惩罚项
- 几何损失 \(\mathcal{L}_\text{geo}\):射线对齐 \(\mathcal{L}_\text{ray}\) + 相对深度 \(\mathcal{L}_\text{depth}\)
- 训练数据:Objaverse 100K 物体,自定义脚本生成多样轨迹
实验关键数据¶
主实验(GSO 数据集)¶
| 方法 | 阶段 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|
| FreeSplatter-dist4 | Late | 23.751 | 0.873 | 0.120 |
| NoPoSplat-dist3 | Late | 24.141 | 0.863 | 0.125 |
| OnlineSplatter | Late | 31.737 | 0.969 | 0.075 |
| FreeSplatter-dist4 | Early | 22.365 | 0.874 | 0.119 |
| OnlineSplatter | Early | 26.329 | 0.921 | 0.084 |
HO3D 数据集上 Late 阶段:PSNR 27.928 vs 最佳基线 22.947(+4.981)
消融实验¶
| 配置 | Early \(\mathcal{M}_{avg}\)↑ | Mid \(\mathcal{M}_{avg}\)↑ | Late \(\mathcal{M}_{avg}\)↑ |
|---|---|---|---|
| 完整模型 | 0.699 | 0.734 | 0.810 |
| w/o 潜在键 | 0.545 | 0.582 | 0.596 |
| w/o 方向键 | 0.699 | 0.701 | 0.723 |
| w/o 阶段训练 | 0.545 | 0.582 | 0.588 |
| w/o 射线损失 | 0.562 | 0.599 | 0.682 |
| 随机裁剪 | 0.697 | 0.728 | 0.764 |
关键发现¶
- OnlineSplatter 在 Late 阶段 PSNR 提升达 +7.596(GSO)和 +4.981(HO3D),远超所有基线
- 随着观测增多性能持续提升,而基线方法常出现停滞或波动
- 潜在键移除导致最大性能下降(-0.214),方向键主要影响后期(-0.087),两者互补
- 阶段训练至关重要:单阶段训练 Late 性能仅 0.588 vs 0.810
亮点与洞察¶
- 恒定时间更新的在线重建:每帧 \(O(1)\) 更新,不随序列长度增长,真正适合实时应用
- 双键设计的互补性:潜在键提供"什么是相关的",方向键提供"从哪里看的"——两者协同实现全面的空间覆盖
- 非累积范式:不像传统方法累积预测然后全局优化,每步直接输出完整表示,从根本上避免冗余和优化开销
局限与展望¶
- 仅支持刚体物体,不支持非刚体变形物体
- 初始帧质量影响后续重建(严重遮挡或模糊的首帧会影响整体)
- 输出 3DGS 表示转换为显式 mesh 仍有挑战
- 分辨率限制在 256×256,高分辨率扩展需要更多work
相关工作与启发¶
- vs BundleSDF: BundleSDF 需要GT深度 + 关键帧匹配优化,OnlineSplatter 纯RGB前馈
- vs DUSt3R/NoPoSplat: 假设静态场景,OnlineSplatter 专为自由移动物体设计
- vs FreeSplatter: FreeSplatter 每次处理4帧需要帧选择策略,OnlineSplatter 通过记忆自然积累
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 双键记忆设计是全新的,将方向估计融入记忆检索非常巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据集,阶段式评估,全面消融,mesh对比
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,但符号较多初次阅读需要适应
- 价值: ⭐⭐⭐⭐⭐ 首个真正的无位姿在线物体重建前馈框架,对机器人感知有直接应用价值
相关论文¶
- [CVPR 2025] SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting
- [CVPR 2026] E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction
- [CVPR 2025] IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera
- [NeurIPS 2025] Motion Matters: Compact Gaussian Streaming for Free-Viewpoint Video Reconstruction
- [NeurIPS 2025] EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting