Dynamic Gaussian Scene Reconstruction from Unsynchronized Videos¶
会议: AAAI 2026
arXiv: 2511.11175
代码: 无
领域: 3D视觉
关键词: 4D Gaussian Splatting, 时间对齐, 动态场景重建, 多视角视频, 非同步相机
一句话总结¶
提出了一个粗到精(coarse-to-fine)的时间对齐模块,可插入到现有 4D Gaussian Splatting 框架中,解决多视角视频时间不同步导致的动态场景重建质量退化问题,在 DyNeRF 数据集上显著提升了多个基线方法的 PSNR/SSIM/LPIPS。
研究背景与动机¶
领域现状:4D Gaussian Splatting (4DGS) 是动态场景重建的主流方法,通过显式高斯基元表示场景实现实时渲染和高保真重建。代表方法包括 4DGaussians、SC-GS、RT4DGS 等。
现有痛点:这些方法都默认多视角相机是严格时间同步的——即同一时间戳下所有相机同时触发。但在实际场景中(消费级相机、手机、GoPro 等独立录制),由于缺乏统一时钟、网络延迟、手动操作等因素,视频流之间几乎不可避免地存在毫秒到秒级的时间偏移。
核心矛盾:当模型试图融合物理上不同时刻采集的视角来重建单一逻辑时间戳的场景时,快速运动的物体会在不同视角间产生显著位置差异,导致鬼影、运动模糊等严重伪影。这种不一致的观测数据会误导 4DGS 优化过程,将时间误差错误归因于空间几何或外观缺陷。
本文目标 如何在不需要专业同步硬件的情况下,从非同步多视角视频中进行高质量的 4D 动态场景重建。
切入角度:将每个相机的未知时间偏移显式纳入优化目标,通过分解为粗粒度帧级偏移和细粒度亚帧偏移两阶段来精确估计时间错位。
核心 idea:设计一个粗到精的可插拔时间对齐模块,利用 LoFTR 特征匹配做粗对齐 + 可学习参数做精细对齐,联合 4DGS 端到端优化。
方法详解¶
整体框架¶
输入是多视角非同步视频,输出是高质量的 4D 高斯场景表示。方法分两阶段: 1. 粗时间对齐(Coarse):利用特征匹配在帧级别找到每个相机的整数帧偏移 2. 精时间对齐(Fine):在训练过程中联合优化一个可学习的亚帧偏移参数
整个模块可以无缝插入到现有的 4DGS 框架中,不需要修改基线方法的核心架构。
关键设计¶
-
粗时间对齐(Coarse Temporal Alignment):
- 功能:估计每个非参考视频相对于参考视频的帧级整数偏移 \(\Delta t_j^*\)
- 核心思路:当两个视角在同一时刻拍摄时,动态前景物体相当于"瞬时静止",此时跨视角的特征匹配数量会达到峰值。利用 LoFTR 密集特征匹配器生成候选对应点,再用 RANSAC 拟合基础矩阵找到几何一致的内点数作为对齐分数
- 公式:\(\Delta t_j^* = \arg\max_{\Delta t_j \in [-k,k]} \sum_{t_i} N_{\text{inlier-fg}}(I_{\text{ref}}^{t_i}, I_j^{t_i + \Delta t})\)
- 设计动机:在搜索偏移范围 \([-k, k]\) 内穷举所有候选偏移,选择前景内点数最多的偏移作为粗对齐结果。使用视频分割模型预先提取前景 mask,只在动态前景区域匹配,避免静态背景干扰
-
精时间对齐(Fine Temporal Refinement):
- 功能:在粗对齐基础上学习一个连续的亚帧残差偏移 \(\tau_j\)
- 核心思路:对每个相机 \(j\) 引入可学习参数 \(\tau_j\),最终查询时间为 \(t' = t + \Delta t_j^* + \tau_j\)。\(\tau_j\) 与 4DGS 模型联合训练,通过光度重建损失的梯度反传来优化
- 设计动机:粗对齐只能达到帧级精度,但快速运动场景需要亚帧级对齐。通过端到端可微优化来发现和纠正残余的亚帧时间偏差
-
与不同 4D 表示的集成:
- 神经 4D 表示(如 4DGaussians, SC-GS):变形网络 \(\mathcal{D}_\theta(\gamma(\boldsymbol{\mu}_k), \gamma(t))\) 的时间输入从 \(t\) 改为 \(t + \Delta_j^* + \tau_j\),由于输出对时间输入可微,\(\tau_j\) 的梯度可自然通过反向传播计算
- 直接 4D 表示(如 RT4DGS):原始实现不包含对时间戳 \(t\) 的梯度计算,因此用有限差分近似:\(\frac{\partial \mathcal{L}}{\partial t} \approx \frac{\mathcal{L}(t+h) - \mathcal{L}(t)}{h}\),其中 \(h\) 取帧间隔的 1/30
损失函数 / 训练策略¶
使用各基线方法原始的光度重建损失(如 L1 + SSIM),仅在时间输入上添加偏移量。超参数与基线保持一致,无额外损失项。
实验关键数据¶
主实验¶
在 DyNeRF 数据集上评估,6 个动态场景,约 20 个视角,下采样至 15 FPS 并施加最大 10 帧的随机时间偏移。
| 方法 | Coffee Martini PSNR | Cook Spinach PSNR | Flame Steak PSNR | Sear Steak PSNR |
|---|---|---|---|---|
| 4DGaussians | 26.44 | 31.44 | 30.68 | 29.67 |
| 4DGaussians+Ours | 28.01 | 32.57 | 32.63 | 32.51 |
| RT4DGS* | 27.92 | 31.15 | 31.13 | 32.94 |
| RT4DGS*+Ours | 28.35 | 33.15 | 33.34 | 33.51 |
所有基线方法加入本文模块后均获得一致提升,RT4DGS+Ours 在大部分场景均达到最优。
消融实验¶
| 配置 | PSNR | SSIM | LPIPS |
|---|---|---|---|
| 4DGaussians (无对齐) | 29.56 | 0.935 | 0.099 |
| +Coarse only | 30.92 | 0.943 | 0.092 |
| +Fine only | 30.87 | 0.941 | 0.091 |
| +Full (Coarse+Fine) | 31.16 | 0.942 | 0.091 |
关键发现¶
- 粗对齐和精对齐各自都能显著减少伪影,但组合使用效果最佳
- 随着随机时间偏移从 3 帧增大到 10 帧,基线性能急剧下降(PSNR 从 30.69→29.60),但加入本文模块后性能几乎不受影响(31.25→31.16)
- 前景 mask 过滤对粗对齐至关重要——避免静态背景的匹配点干扰动态物体的时间对齐
亮点与洞察¶
- "瞬时静态"假设很巧妙:当多视角在同一时刻拍摄时,动态物体从多视角看相当于静态,因此跨视角特征匹配数最大化就等价于时间对齐。这是一个直觉上简单但非常有效的 insight
- 可插拔设计:模块不修改基线的核心架构,只改变时间输入,真正做到"即插即用"。这种设计思路可迁移到其他需要处理输入不对齐问题的场景
- 有限差分处理不可微情况:对 RT4DGS 这种不提供时间梯度的方法,用有限差分近似,实用性强
局限与展望¶
- 仅处理时间偏移(平移),未考虑帧率不同(速率差异)的情况
- 实验仅在 DyNeRF 单一数据集上验证,缺少真实户外场景的评估
- 粗对齐阶段的 LoFTR + RANSAC 计算开销未详细分析
- 假设所有相机之间的时间偏移是恒定的(不随时间变化),实际中可能存在时钟漂移
相关工作与启发¶
- vs 4DGaussians: 4DGaussians 假设同步输入,本文通过时间对齐模块扩展了其适用范围
- vs NeRF-based 动态重建: 本文方法同样可以扩展到 NeRF 框架,但当前仅在 3DGS 系列上验证
- vs 光流约束方法(GaussianFlow, MotionGS): 这些方法通过光流增加运动约束,与本文的时间对齐是互补的思路
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统解决 4DGS 中的时间非同步问题,insight 清晰
- 实验充分度: ⭐⭐⭐ 仅在 DyNeRF 一个数据集上验证,场景多样性不足
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ 实用性强,降低了动态场景采集的硬件门槛
相关论文¶
- [AAAI 2026] Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction
- [ICCV 2025] BézierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting
- [ICCV 2025] BezierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting
- [NeurIPS 2025] Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos
- [ICLR 2026] Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos