跳转至

OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects

会议: NeurIPS 2025
arXiv: 2510.20605
代码: https://markhh.com/OnlineSplatter (有)
领域: 3D视觉
关键词: 在线3D重建, 3D高斯溅射, 无位姿重建, 自由移动物体, 记忆模块

一句话总结

提出 OnlineSplatter,一个无需相机位姿、深度先验或全局优化的前馈式在线3D重建框架,通过双键记忆模块(外观-几何潜在键 + 方向键)实现自由移动物体的恒定时间增量重建。

研究背景与动机

从单目视频实时重建自由移动物体是计算机视觉的基础挑战(应用于机器人、AR等)。现有方法面临以下困境:

基于优化的方法(BARF、BundleSDF、Fmov):需要全局 bundle adjustment,无法在线实时运行;BundleSDF 还需要深度真值输入。

基于扩散的生成方法(LRM、InstantMesh):依赖学到的先验"幻觉"看不到的部分,不适合感知任务。

前馈点图方法(DUSt3R、NoPoSplat、Spann3R):假设静态场景,将移动物体视为异常值;隐式依赖大面积背景表面。

核心矛盾:在线重建需要因果处理(每帧到达即更新),但现有方法要么需要全局优化、要么假设静态场景、要么需要额外传感器。

本文切入角度:设计一个以物体为中心的前馈框架,用第一帧定义标准坐标系,通过双键记忆模块在恒定时间复杂度下增量融合时序信息,无需位姿、深度或背景信息。

方法详解

整体框架

每个时间步 \(t\):输入 RGB 帧 \(V_t\) → 在线视频分割获得物体掩码 → 双编码器提取 patch 特征 → OnlineSplatter Transformer 联合处理参考帧、当前帧和记忆 token → 解码为像素对齐的 3D 高斯 → 更新物体记忆。整个过程前馈式、恒定时间复杂度。

关键设计

  1. 双编码器图像特征提取

    • 冻结的 DINO 编码器提供强自监督外观线索
    • 可训练的同架构编码器捕获互补的几何线索
    • 拼接两者特征:\(f_{vt} = \text{Concat}(\text{Encoder}_1^I(V_t'), \text{Encoder}_2^I(V_t'))\)
    • 设计动机:DINO 有强视觉先验但缺乏 3D 感知
  2. 双键 3D 物体记忆:核心创新

    • 潜在键 \(\mathbf{k}_t^{(L)}\):轻量级编码器从 patch 特征学习,捕获视觉-几何线索
    • 方向键 \(\mathbf{k}_t^{(D)}\):预训练的零样本 3D 方向估计器给出物体朝向,转为单位方向向量
    • \(\mathbf{v}_t^{(L)}\):从 Transformer 输出 token 编码
    • 双用途读取
      • 方向对齐读取:检索潜在键和方向键都相似的记忆(当前视角信息)
      • 方向互补读取:检索潜在键相似但方向相反的记忆(互补视角信息)
    • 相似度公式:\(s_{i,t}^{(\text{align})} = (\mathbf{q}_t^{(L)\top}\mathbf{k}_i^{(L)}) \cdot \mathbf{q}_t^{(D)\top}\mathbf{k}_i^{(D)} \cdot \frac{1}{\tau_t}\)
  3. 记忆稀疏化机制

    • 当记忆达到容量上限 \(S\) 时,裁剪 20% 最不有用的条目
    • 综合两个维度:使用率(交叉注意力权重累积)和空间覆盖度(方向键的平均角距离)
    • 从高覆盖子集中移除低使用率条目,平衡保留独特视角和丢弃冗余
  4. 高斯解码与渲染

    • Transformer 输出解码为 4N 个高斯:\(\mathbf{G}_{obj,t}^{4N} = \{\mathbf{G}_{mem,t}^{2N}, \mathbf{G}_{ref,t}^{N}, \mathbf{G}_{src,t}^{N}\}\)
    • 非累积式:每步直接输出完整物体表示,避免全局聚合
    • 帧级子集各自渲染对应视角,鼓励各高斯组专注于对应可见部分

损失函数 / 训练策略

  • 两阶段训练:Warm-up(无记忆模块,250K步)→ Main(含记忆模块,500K步)
  • 光度损失 \(\mathcal{L}_\text{photo}\):GT图像 vs 渲染图像 MSE + 背景惩罚项
  • 几何损失 \(\mathcal{L}_\text{geo}\):射线对齐 \(\mathcal{L}_\text{ray}\) + 相对深度 \(\mathcal{L}_\text{depth}\)
  • 训练数据:Objaverse 100K 物体,自定义脚本生成多样轨迹

实验关键数据

主实验(GSO 数据集)

方法 阶段 PSNR↑ SSIM↑ LPIPS↓
FreeSplatter-dist4 Late 23.751 0.873 0.120
NoPoSplat-dist3 Late 24.141 0.863 0.125
OnlineSplatter Late 31.737 0.969 0.075
FreeSplatter-dist4 Early 22.365 0.874 0.119
OnlineSplatter Early 26.329 0.921 0.084

HO3D 数据集上 Late 阶段:PSNR 27.928 vs 最佳基线 22.947(+4.981)

消融实验

配置 Early \(\mathcal{M}_{avg}\) Mid \(\mathcal{M}_{avg}\) Late \(\mathcal{M}_{avg}\)
完整模型 0.699 0.734 0.810
w/o 潜在键 0.545 0.582 0.596
w/o 方向键 0.699 0.701 0.723
w/o 阶段训练 0.545 0.582 0.588
w/o 射线损失 0.562 0.599 0.682
随机裁剪 0.697 0.728 0.764

关键发现

  • OnlineSplatter 在 Late 阶段 PSNR 提升达 +7.596(GSO)和 +4.981(HO3D),远超所有基线
  • 随着观测增多性能持续提升,而基线方法常出现停滞或波动
  • 潜在键移除导致最大性能下降(-0.214),方向键主要影响后期(-0.087),两者互补
  • 阶段训练至关重要:单阶段训练 Late 性能仅 0.588 vs 0.810

亮点与洞察

  • 恒定时间更新的在线重建:每帧 \(O(1)\) 更新,不随序列长度增长,真正适合实时应用
  • 双键设计的互补性:潜在键提供"什么是相关的",方向键提供"从哪里看的"——两者协同实现全面的空间覆盖
  • 非累积范式:不像传统方法累积预测然后全局优化,每步直接输出完整表示,从根本上避免冗余和优化开销

局限与展望

  • 仅支持刚体物体,不支持非刚体变形物体
  • 初始帧质量影响后续重建(严重遮挡或模糊的首帧会影响整体)
  • 输出 3DGS 表示转换为显式 mesh 仍有挑战
  • 分辨率限制在 256×256,高分辨率扩展需要更多work

相关工作与启发

  • vs BundleSDF: BundleSDF 需要GT深度 + 关键帧匹配优化,OnlineSplatter 纯RGB前馈
  • vs DUSt3R/NoPoSplat: 假设静态场景,OnlineSplatter 专为自由移动物体设计
  • vs FreeSplatter: FreeSplatter 每次处理4帧需要帧选择策略,OnlineSplatter 通过记忆自然积累

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 双键记忆设计是全新的,将方向估计融入记忆检索非常巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据集,阶段式评估,全面消融,mesh对比
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,但符号较多初次阅读需要适应
  • 价值: ⭐⭐⭐⭐⭐ 首个真正的无位姿在线物体重建前馈框架,对机器人感知有直接应用价值

相关论文