StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams¶

会议: ICLR 2026
arXiv: 2506.08862
代码: https://streamsplat3d.github.io/
领域: 3D视觉
关键词: 动态3D重建, 3D高斯溅射, 在线重建, 前馈模型, 视频流

一句话总结¶

StreamSplat 提出了一个完全前馈的在线动态3D重建框架，通过概率位置采样、双向形变场和自适应高斯融合三大创新，能从未标定视频流中即时生成动态3DGS表示，速度比优化方法快1200倍。

研究背景与动机¶

实时动态3D重建（4D重建）在机器人、AR/VR和自动驾驶等领域至关重要。然而现有方法存在根本性限制：

离线依赖：主流动态3DGS方法（如4DGS、DGMarbles）需要访问完整视频序列，并经历数小时的逐场景迭代优化，包括相机标定→静态高斯优化→形变场学习→时序融合的多步流水线

实时性差：即使最新方法仍需30分钟-24小时处理一个场景，无法部署于实时应用

标定要求：几乎所有方法都需要预先标定的相机参数

前馈方法局限：已有的前馈3DGS方法（pixelSplat、NoPoSplat、StreamGS）仅支持静态场景，动态变体仍需标定和全序列访问

作者提出了核心研究问题：能否在完全在线的条件下，用未标定视频流达到离线方法的质量和功能？

方法详解¶

整体框架¶

StreamSplat 维持一个正则高斯集合 $\tilde{\mathcal{G}}(t)$，对每一帧输入执行：编码→预测双向形变→自适应融合→渲染的流水线。采用两阶段训练：先训练静态编码器，再冻结编码器训练动态解码器。

关键设计¶

概率位置采样 (Probabilistic Position Sampling)

针对3DGS对位置初始化敏感且前馈模型容易陷入局部最优的问题，本文预测每个3D偏移的截断正态分布而非直接回归：

$$\boldsymbol{o} \sim \mathcal{N}_{[-1,1]}(\boldsymbol{\mu}_p, \boldsymbol{\Sigma}_p)$$

最终3D位置通过像素对齐预测得到：$\boldsymbol{\mu}_i = (u_i + o_{i,0},\; v_i + o_{i,1},\; g(o_{i,2}))$，其中 $g(z) = 2/(1+z)$ 为深度映射。该策略在训练初期促进空间探索，后期稳定收敛到最优位置。消融实验显示，概率采样比确定性预测提升6.36dB PSNR。

双向形变场 (Bidirectional Deformation Field)

传统方法对每帧实例化新高斯并迭代优化，难以适配前馈模型。本文联合建模前后向运动：前向场将上一帧高斯 $\mathcal{G}_{t-1}$ 变形到当前时间 $t$，后向场将当前帧高斯 $\mathcal{G}_t$ 变形回 $t-1$。这种对称设计： - 提供稳健的跨帧关联 - 自然处理出现/消失的高斯 - 简化端到端训练的预测和监督

自适应高斯融合 (Adaptive Gaussian Fusion)

通过时间依赖的不透明度调制实现软匹配融合，每个高斯在两个连续帧间持续存在：

$$\alpha(t) = \alpha \cdot \frac{\sigma(-\gamma_0(|t - t_0| - \gamma_1))}{\sigma(\gamma_0 \cdot \gamma_1)}$$

其中 $t_0$ 为高斯创建帧，$\gamma_0$ 控制过渡速率，$\gamma_1$ 控制淡出窗口。该机制隐式融合前后向高斯：重建损失诱导软匹配，传播持久高斯同时处理出现/消失的高斯，无需硬分配或迭代融合即可维持时序一致性。

损失函数 / 训练策略¶

阶段1 - 静态编码器： $$\mathcal{L}_{\text{static}} = \mathcal{L}_{\text{recon}}(\hat{I}_t, I_t) + \lambda_{\text{depth}} \mathcal{L}_{\text{depth}}(\hat{D}_t, D_t)$$ 其中深度损失采用尺度-偏移不变形式，并引入自适应衰减因子 $\hat{\lambda}_{\text{depth}}$ 降低噪声伪深度的影响。

阶段2 - 动态解码器（冻结编码器）： $$\mathcal{L}_{\text{dynamic}} = \mathbb{E}_t[\mathcal{L}_{\text{recon}} + \lambda_{\text{depth}} \mathcal{L}_{\text{depth}} + \lambda_{\text{mask}} \mathcal{L}_{\text{mask}}]$$ 新增运动前景区域的辅助重建损失，使用DAVIS/YouTube-VOS的分割掩码监督。

实验关键数据¶

主实验¶

数据集	指标	本文 (StreamSplat)	之前SOTA	提升
DAVIS Key Frame	PSNR↑	37.83	42.33 (MonST3R)	竞争性
DAVIS Key Frame	LPIPS↓	0.016	0.012 (MonST3R)	接近
DAVIS Middle-4	PSNR↑	23.66	21.33 (DGMarbles)	+2.33
DAVIS Middle-4	LPIPS↓	0.193	0.313 (DGMarbles)	-0.12
RE10K Average	PSNR↑	29.51	23.73 (DGMarbles)	+5.78
8帧插值	PSNR↑	22.10	21.09 (AMT)	+1.01

消融实验¶

配置	PSNR (Key)↑	PSNR (Mid)↑	说明
w/o 概率采样	31.47	-	确定性预测，降6.36dB
w/o 深度监督	36.68	-	空间结构失真
w/o 双向形变	-	18.89	像素对齐结构丢失
Full (Ours)	37.83	23.66	完整模型

关键发现¶

StreamSplat 是唯一支持近实时动态3D重建的方法，每帧0.049秒，比优化方法快1200×
在关键帧重建上与MonST3R竞争，但后者需要后优化且仅限关键帧
在中间帧重建上超过所有基线，包括2D视频插值方法
支持任意长度视频流的在线重建

亮点与洞察¶

在线处理范式突破：首次在未标定视频流上实现前馈式在线动态3D重建，颠覆了传统离线多阶段流水线
概率位置采样：简洁有效地解决了前馈3DGS的局部最优问题，提升巨大（+6.36dB）
自适应不透明度融合：通过时间依赖的不透明度实现软匹配，巧妙避免了传统方法的硬分配和迭代融合
正则空间设计：采用正交正则空间绕过逐场景相机标定，相机运动被吸收到高斯动力学中

局限与展望¶

关键帧重建质量略低于MonST3R（点云表示），但后者不支持在线处理
输入分辨率限制在512×288，高分辨率场景可能损失细节
仅在短-中等长度视频上评估，超长序列的误差累积需要更多验证
正交投影假设可能在强透视效果场景中受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现未标定视频流的在线前馈动态3D重建，三个技术创新协同设计
实验充分度: ⭐⭐⭐⭐ 覆盖动态/静态多个基准，消融详尽，但缺少更长视频的评估
写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰，方法阐述逻辑性强，图表精美
价值: ⭐⭐⭐⭐⭐ 1200×加速具有重要实用价值，开启在线动态重建新范式