跳转至

4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos

会议: NeurIPS 2025 (Spotlight)
arXiv: 2506.08015
代码: https://github.com/facebookresearch/4dgt
领域: 3D视觉/动态场景重建
关键词: 4D Gaussian Splatting, Transformer, 动态场景重建, 前馈推理, 单目视频

一句话总结

提出4DGT——一种基于4D高斯的Transformer模型,完全在真实世界单目带位姿视频上训练,以前馈方式在几秒内完成动态场景重建,显著优于同类前馈网络,并达到与优化类方法可比的精度。

背景与动机

动态3D场景重建是计算机视觉中的核心任务。现有方法主要分两大类:(1) 优化类方法如Shape-of-Motion等,每个场景需要数小时的逐场景优化,无法扩展到长视频或实时应用;(2) 前馈类方法如L4GM、StaticLRM,虽然推理快,但通常需要多视角输入或合成数据训练,在真实世界复杂动态场景上效果有限。

核心痛点在于:现有前馈方法没有很好地建模场景中物体的时间维度——静态背景和动态前景的生命周期不同,物体可能出现又消失,传统3D高斯表示缺乏时间维度的建模能力。此外,随着输入帧数增加,空间-时间token数量爆炸式增长,训练和推理的显存和效率成为瓶颈。

核心问题

如何设计一个前馈动态场景重建模型,使其:(1) 能在真实世界单目视频上训练而非依赖合成数据;(2) 统一建模静态和动态成分及其不同的时间生命周期;(3) 处理长视频序列时保持高效?

方法详解

整体框架

4DGT的输入是一系列带有相机位姿和时间戳的单目RGB帧(默认64帧),输出是一组4D高斯原语(4D Gaussians),可以在任意时间、任意视角下进行渲染。

整体pipeline分为两个阶段的训练和一个滚动窗口推理机制: 1. Stage 1: 在EgoExo4D数据上训练,以较低空间分辨率预测像素对齐的4D高斯参数 2. Stage 2: 基于Stage 1模型的opacity直方图裁剪掉大部分不活跃高斯,增加空间和时间上的token采样密度,在更高分辨率上训练 3. 推理: 以64帧为窗口滑动处理长视频,前馈预测一致的4D高斯

关键设计

  1. 4D高斯表示: 每个高斯原语不仅有传统3DGS的位置(xyz)、尺度(scale)、旋转(rotation)、透明度(opacity)、颜色(rgb),还增加了时间维度的参数:
  2. t: 时间位置(高斯在哪个时间点最活跃)
  3. cov_t: 时间协方差(高斯的时间生命周期有多长)
  4. ms3: 边际速度(描述高斯随时间的空间运动方向和速率,支持多degree建模)
  5. omega: 角速度(高斯随时间的旋转变化)
  6. dxyzt: 位置+时间的细粒度残差修正

渲染时,通过计算目标时间 \(t\) 与高斯时间中心 \(\mu_t\) 和时间协方差 \(\sigma_t\) 的marginal概率 \(p(t|\mu_t, \sigma_t)\) 来决定每个高斯对当前帧的贡献权重。静态物体的 \(\sigma_t\) 很大(始终可见),动态物体的 \(\sigma_t\) 较小(仅在特定时间段可见),从而自然统一了静态和动态建模。

  1. DINOv2 + Transformer编码器 (TLoD):
  2. 使用冻结的DINOv2 ViT-B/14作为视觉特征提取backbone
  3. 将RGB图像、Plücker射线坐标(编码相机位姿和像素方向)和时间戳拼接后patchify为空间-时间token
  4. DINOv2特征与Plücker+timestamp特征拼接后输入Transformer
  5. 12层Self-Attention Block进行全局空间-时间特征融合
  6. 解码头通过MLP将token映射到各个4D高斯参数

  7. 密度控制策略 (Magic Filter): 这是本文的核心训练技巧。Stage 1训练后,每个14×14 patch内的196个像素都会预测一个高斯,总量巨大。为了在Stage 2中处理更大的时空输入同时保持渲染效率,提出了基于opacity的自适应裁剪方案:

  8. Patch Sorting: 在每个14×14 patch内,根据预测的opacity值排序,仅保留top-k(约10个)最活跃的高斯,裁剪掉约95%的不活跃高斯
  9. 这大幅减少了渲染时的高斯数量,使得可以在Stage 2中增加空间和时间分辨率的token输入
  10. 该策略在训练中前向传播时执行,保证只有贡献大的高斯参与渲染和梯度计算

  11. Temporal Level of Detail (TLoD): 支持多层级处理(n_levels > 1时),分为全局、局域和细节三个层级:

  12. 全局层: 在时间和空间上降采样处理,捕捉整体场景结构
  13. 细节层: 原始分辨率处理单帧或少帧,捕捉高频细节
  14. 各层级的4D高斯参数拼接后共同参与渲染

损失函数 / 训练策略

  • 训练数据来自大规模真实世界带位姿的单目视频数据集(EgoExo4D等),在训练時不同时间粒度采样帧作为输入,所有图像用于监督
  • 使用标准的光度损失(rendering loss),包括RGB重建损失
  • Stage 1在EgoExo4D上训练,使用所有像素对齐的高斯
  • Stage 2裁剪后在更高分辨率上继续训练,同时增加空间和时间的token采样密度
  • 模型总参数量约14.5GB(完整模型),Stage 1模型约4.85GB
  • 推理时使用bfloat16精度,需要至少16GB显存

实验关键数据

数据集 对比方法 本文优势
DyCheck (cross-domain) vs Shape-of-Motion (优化类) 达到可比精度,推理时间从数小时降至数秒
DyCheck (cross-domain) vs L4GM, StaticLRM (前馈类) 显著优于这些前馈方法
Ego-Exo4D vs 其他方法 真实世界视频上表现最佳
AEA, ADT, HOT3D, Nymeria 定性展示 高质量动态重建
TUM Dynamics vs 其他方法 跨域泛化能力强

注:论文HTML版本不可用,具体定量数据(PSNR/SSIM/LPIPS)未能从当前来源获取。从摘要和代码可知核心结论是"显著优于前馈方法,与优化方法可比"。

消融实验要点

  • Magic Filter (密度控制):去掉密度控制会导致高斯数量爆炸,无法处理长时空输入
  • 4D时序参数:cov_t(时间协方差)和ms3(运动速度)是建模动态场景的关键,去掉会导致静态/动态物体混淆
  • 两阶段训练:仅用Stage 1的密集高斯渲染质量和效率都不如两阶段方案
  • TLoD多层级:多层级处理有助于平衡全局一致性和局部细节

亮点

  • 4D高斯表示的统一建模:通过时间协方差cov_t和时间位置t,自然统一了静态和动态物体的表示——静态物体的时间生命周期长,动态物体的短,无需显式区分
  • 密度控制是关键创新:Magic Filter基于opacity排序裁剪的思路简单但有效,既减少了渲染开销,又为更大的时空输入腾出了显存空间,是本文能在64帧长序列上前馈推理的核心使能技术
  • 真实世界训练数据:完全在真实世界单目视频上训练,不依赖合成数据,泛化能力强
  • 系统性的工程实现:从数据处理、模型架构到渲染pipeline的完整系统,代码已开源,提供了交互式viewer

局限性 / 可改进方向

  • 单目输入的几何精度上限:单目视频缺乏多视角约束,难以恢复精确的几何深度,尤其在遮挡区域
  • 64帧窗口的局限:虽然支持滚动窗口,但窗口间的4D高斯一致性没有显式约束,长视频可能出现窗口间的不连续
  • 训练数据依赖:需要大规模带精确位姿的单目视频,位姿估计误差会影响重建质量
  • 非刚体运动建模:4D高斯的线性运动假设(ms3速度+omega角速度)对非线性复杂运动的建模能力有限
  • 渲染效率:虽然比优化方法快很多,但14.5GB的模型在实时应用中仍有优化空间

与相关工作的对比

  • vs Shape-of-Motion: SoM是逐场景优化方法,精度高但慢(数小时)。4DGT前馈推理仅需秒级,泛化性更好,但在单个场景上的极致精度可能略逊
  • vs L4GM: L4GM也是前馈3DGS模型,但主要面向合成多视角输入。4DGT在单目真实世界视频上显著更强
  • vs StaticLRM: StaticLRM仅处理静态场景,没有时间维度建模。4DGT通过4D高斯扩展了对动态场景的支持
  • vs 4DSTR/4DGC等4D方法: 4DGT的核心优势在于前馈推理+真实世界训练,而非依赖合成数据或逐场景优化

启发与关联

  • 全属性时序校正idea有关联:4DGT的4D高斯参数设计(ms3多度速度衰减、omega角速度)提供了一种参考方案,其ms3_deg_downmax_mult的decay设计可以启发层级时序窗口的设计
  • TTT用于4D动力学外推idea有关联:4DGT的滚动窗口推理机制存在窗口间一致性问题,如果引入TTT进行在线自适应更新,可能改善长视频的时序一致性
  • Magic Filter的密度控制思路可以迁移到其他token-heavy的视觉任务中——基于激活度/重要性裁剪不活跃token是一种通用的效率提升策略
  • DINOv2作为冻结backbone + 轻量Transformer fusion的架构模式在这类feed-forward 3D生成任务中持续证明有效

评分

  • 新颖性: ⭐⭐⭐⭐ 4D高斯Transformer + 密度控制策略的组合有创新性,但各个组件(4DGS、Vision Transformer、DINOv2 backbone)都不是全新的
  • 实验充分度: ⭐⭐⭐⭐ 在多个真实世界数据集上验证,与多个baseline对比,有消融实验;但HTML版本不可用,具体定量结果未能完整获取
  • 写作质量: ⭐⭐⭐⭐ Spotlight论文,来自Meta RL Research & 浙大,代码开源,项目页面完整,系统性好
  • 价值: ⭐⭐⭐⭐⭐ 动态场景前馈重建是高价值方向,从小时级降到秒级的实用性跨越意义重大