OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects¶

会议: NeurIPS 2025
arXiv: 2510.20605
代码: https://markhh.com/OnlineSplatter (有)
领域: 3D视觉
关键词: 在线3D重建, 3D高斯溅射, 无位姿重建, 自由移动物体, 记忆模块

一句话总结¶

提出 OnlineSplatter，一个无需相机位姿、深度先验或全局优化的前馈式在线3D重建框架，通过双键记忆模块（外观-几何潜在键 + 方向键）实现自由移动物体的恒定时间增量重建。

研究背景与动机¶

从单目视频实时重建自由移动物体是计算机视觉的基础挑战（应用于机器人、AR等）。现有方法面临以下困境：

基于优化的方法（BARF、BundleSDF、Fmov）：需要全局 bundle adjustment，无法在线实时运行；BundleSDF 还需要深度真值输入。

基于扩散的生成方法（LRM、InstantMesh）：依赖学到的先验"幻觉"看不到的部分，不适合感知任务。

前馈点图方法（DUSt3R、NoPoSplat、Spann3R）：假设静态场景，将移动物体视为异常值；隐式依赖大面积背景表面。

核心矛盾：在线重建需要因果处理（每帧到达即更新），但现有方法要么需要全局优化、要么假设静态场景、要么需要额外传感器。

本文切入角度：设计一个以物体为中心的前馈框架，用第一帧定义标准坐标系，通过双键记忆模块在恒定时间复杂度下增量融合时序信息，无需位姿、深度或背景信息。

方法详解¶

整体框架¶

每个时间步 \(t\)：输入 RGB 帧 \(V_t\) → 在线视频分割获得物体掩码 → 双编码器提取 patch 特征 → OnlineSplatter Transformer 联合处理参考帧、当前帧和记忆 token → 解码为像素对齐的 3D 高斯 → 更新物体记忆。整个过程前馈式、恒定时间复杂度。

关键设计¶

双编码器图像特征提取：
- 冻结的 DINO 编码器提供强自监督外观线索
- 可训练的同架构编码器捕获互补的几何线索
- 拼接两者特征：\(f_{vt} = \text{Concat}(\text{Encoder}_1^I(V_t'), \text{Encoder}_2^I(V_t'))\)
- 设计动机：DINO 有强视觉先验但缺乏 3D 感知
双键 3D 物体记忆：核心创新
- 潜在键 \(\mathbf{k}_t^{(L)}\)：轻量级编码器从 patch 特征学习，捕获视觉-几何线索
- 方向键 \(\mathbf{k}_t^{(D)}\)：预训练的零样本 3D 方向估计器给出物体朝向，转为单位方向向量
- 值 \(\mathbf{v}_t^{(L)}\)：从 Transformer 输出 token 编码
- 双用途读取：
  - 方向对齐读取：检索潜在键和方向键都相似的记忆（当前视角信息）
  - 方向互补读取：检索潜在键相似但方向相反的记忆（互补视角信息）
- 相似度公式：\(s_{i,t}^{(\text{align})} = (\mathbf{q}_t^{(L)\top}\mathbf{k}_i^{(L)}) \cdot \mathbf{q}_t^{(D)\top}\mathbf{k}_i^{(D)} \cdot \frac{1}{\tau_t}\)
记忆稀疏化机制：
- 当记忆达到容量上限 \(S\) 时，裁剪 20% 最不有用的条目
- 综合两个维度：使用率（交叉注意力权重累积）和空间覆盖度（方向键的平均角距离）
- 从高覆盖子集中移除低使用率条目，平衡保留独特视角和丢弃冗余
高斯解码与渲染：
- Transformer 输出解码为 4N 个高斯：\(\mathbf{G}_{obj,t}^{4N} = \{\mathbf{G}_{mem,t}^{2N}, \mathbf{G}_{ref,t}^{N}, \mathbf{G}_{src,t}^{N}\}\)
- 非累积式：每步直接输出完整物体表示，避免全局聚合
- 帧级子集各自渲染对应视角，鼓励各高斯组专注于对应可见部分

损失函数 / 训练策略¶

两阶段训练：Warm-up（无记忆模块，250K步）→ Main（含记忆模块，500K步）
光度损失 \(\mathcal{L}_\text{photo}\)：GT图像 vs 渲染图像 MSE + 背景惩罚项
几何损失 \(\mathcal{L}_\text{geo}\)：射线对齐 \(\mathcal{L}_\text{ray}\) + 相对深度 \(\mathcal{L}_\text{depth}\)
训练数据：Objaverse 100K 物体，自定义脚本生成多样轨迹

实验关键数据¶

主实验（GSO 数据集）¶

方法	阶段	PSNR↑	SSIM↑	LPIPS↓
FreeSplatter-dist4	Late	23.751	0.873	0.120
NoPoSplat-dist3	Late	24.141	0.863	0.125
OnlineSplatter	Late	31.737	0.969	0.075
FreeSplatter-dist4	Early	22.365	0.874	0.119
OnlineSplatter	Early	26.329	0.921	0.084

HO3D 数据集上 Late 阶段：PSNR 27.928 vs 最佳基线 22.947（+4.981）

消融实验¶

配置	Early \(\mathcal{M}_{avg}\)↑	Mid \(\mathcal{M}_{avg}\)↑	Late \(\mathcal{M}_{avg}\)↑
完整模型	0.699	0.734	0.810
w/o 潜在键	0.545	0.582	0.596
w/o 方向键	0.699	0.701	0.723
w/o 阶段训练	0.545	0.582	0.588
w/o 射线损失	0.562	0.599	0.682
随机裁剪	0.697	0.728	0.764

关键发现¶

OnlineSplatter 在 Late 阶段 PSNR 提升达 +7.596（GSO）和 +4.981（HO3D），远超所有基线
随着观测增多性能持续提升，而基线方法常出现停滞或波动
潜在键移除导致最大性能下降（-0.214），方向键主要影响后期（-0.087），两者互补
阶段训练至关重要：单阶段训练 Late 性能仅 0.588 vs 0.810

亮点与洞察¶

恒定时间更新的在线重建：每帧 \(O(1)\) 更新，不随序列长度增长，真正适合实时应用
双键设计的互补性：潜在键提供"什么是相关的"，方向键提供"从哪里看的"——两者协同实现全面的空间覆盖
非累积范式：不像传统方法累积预测然后全局优化，每步直接输出完整表示，从根本上避免冗余和优化开销

局限与展望¶

仅支持刚体物体，不支持非刚体变形物体
初始帧质量影响后续重建（严重遮挡或模糊的首帧会影响整体）
输出 3DGS 表示转换为显式 mesh 仍有挑战
分辨率限制在 256×256，高分辨率扩展需要更多work

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双键记忆设计是全新的，将方向估计融入记忆检索非常巧妙
实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据集，阶段式评估，全面消融，mesh对比
写作质量: ⭐⭐⭐⭐ 方法描述清晰，但符号较多初次阅读需要适应
价值: ⭐⭐⭐⭐⭐ 首个真正的无位姿在线物体重建前馈框架，对机器人感知有直接应用价值