4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos¶

会议: NeurIPS 2025 (Spotlight)
arXiv: 2506.08015
代码: https://github.com/facebookresearch/4dgt
领域: 3D视觉/动态场景重建
关键词: 4D Gaussian Splatting, Transformer, 动态场景重建, 前馈推理, 单目视频

一句话总结¶

提出4DGT——一种基于4D高斯的Transformer模型，完全在真实世界单目带位姿视频上训练，以前馈方式在几秒内完成动态场景重建，显著优于同类前馈网络，并达到与优化类方法可比的精度。

背景与动机¶

动态3D场景重建是计算机视觉中的核心任务。现有方法主要分两大类：(1) 优化类方法如Shape-of-Motion等，每个场景需要数小时的逐场景优化，无法扩展到长视频或实时应用；(2) 前馈类方法如L4GM、StaticLRM，虽然推理快，但通常需要多视角输入或合成数据训练，在真实世界复杂动态场景上效果有限。

核心痛点在于：现有前馈方法没有很好地建模场景中物体的时间维度——静态背景和动态前景的生命周期不同，物体可能出现又消失，传统3D高斯表示缺乏时间维度的建模能力。此外，随着输入帧数增加，空间-时间token数量爆炸式增长，训练和推理的显存和效率成为瓶颈。

核心问题¶

如何设计一个前馈动态场景重建模型，使其：(1) 能在真实世界单目视频上训练而非依赖合成数据；(2) 统一建模静态和动态成分及其不同的时间生命周期；(3) 处理长视频序列时保持高效？

方法详解¶

整体框架¶

4DGT的输入是一系列带有相机位姿和时间戳的单目RGB帧（默认64帧），输出是一组4D高斯原语（4D Gaussians），可以在任意时间、任意视角下进行渲染。

整体pipeline分为两个阶段的训练和一个滚动窗口推理机制： 1. Stage 1: 在EgoExo4D数据上训练，以较低空间分辨率预测像素对齐的4D高斯参数 2. Stage 2: 基于Stage 1模型的opacity直方图裁剪掉大部分不活跃高斯，增加空间和时间上的token采样密度，在更高分辨率上训练 3. 推理: 以64帧为窗口滑动处理长视频，前馈预测一致的4D高斯

关键设计¶

4D高斯表示: 每个高斯原语不仅有传统3DGS的位置(xyz)、尺度(scale)、旋转(rotation)、透明度(opacity)、颜色(rgb)，还增加了时间维度的参数：
t: 时间位置（高斯在哪个时间点最活跃）
cov_t: 时间协方差（高斯的时间生命周期有多长）
ms3: 边际速度（描述高斯随时间的空间运动方向和速率，支持多degree建模）
omega: 角速度（高斯随时间的旋转变化）
dxyzt: 位置+时间的细粒度残差修正

渲染时，通过计算目标时间 \(t\) 与高斯时间中心 \(\mu_t\) 和时间协方差 \(\sigma_t\) 的marginal概率 \(p(t|\mu_t, \sigma_t)\) 来决定每个高斯对当前帧的贡献权重。静态物体的 \(\sigma_t\) 很大（始终可见），动态物体的 \(\sigma_t\) 较小（仅在特定时间段可见），从而自然统一了静态和动态建模。

DINOv2 + Transformer编码器 (TLoD):
使用冻结的DINOv2 ViT-B/14作为视觉特征提取backbone
将RGB图像、Plücker射线坐标（编码相机位姿和像素方向）和时间戳拼接后patchify为空间-时间token
DINOv2特征与Plücker+timestamp特征拼接后输入Transformer
12层Self-Attention Block进行全局空间-时间特征融合
解码头通过MLP将token映射到各个4D高斯参数
密度控制策略 (Magic Filter): 这是本文的核心训练技巧。Stage 1训练后，每个14×14 patch内的196个像素都会预测一个高斯，总量巨大。为了在Stage 2中处理更大的时空输入同时保持渲染效率，提出了基于opacity的自适应裁剪方案：
Patch Sorting: 在每个14×14 patch内，根据预测的opacity值排序，仅保留top-k（约10个）最活跃的高斯，裁剪掉约95%的不活跃高斯
这大幅减少了渲染时的高斯数量，使得可以在Stage 2中增加空间和时间分辨率的token输入
该策略在训练中前向传播时执行，保证只有贡献大的高斯参与渲染和梯度计算
Temporal Level of Detail (TLoD): 支持多层级处理（n_levels > 1时），分为全局、局域和细节三个层级：
全局层: 在时间和空间上降采样处理，捕捉整体场景结构
细节层: 原始分辨率处理单帧或少帧，捕捉高频细节
各层级的4D高斯参数拼接后共同参与渲染

损失函数 / 训练策略¶

训练数据来自大规模真实世界带位姿的单目视频数据集（EgoExo4D等），在训练時不同时间粒度采样帧作为输入，所有图像用于监督
使用标准的光度损失（rendering loss），包括RGB重建损失
Stage 1在EgoExo4D上训练，使用所有像素对齐的高斯
Stage 2裁剪后在更高分辨率上继续训练，同时增加空间和时间的token采样密度
模型总参数量约14.5GB（完整模型），Stage 1模型约4.85GB
推理时使用bfloat16精度，需要至少16GB显存

实验关键数据¶

数据集	对比方法	本文优势
DyCheck (cross-domain)	vs Shape-of-Motion (优化类)	达到可比精度，推理时间从数小时降至数秒
DyCheck (cross-domain)	vs L4GM, StaticLRM (前馈类)	显著优于这些前馈方法
Ego-Exo4D	vs 其他方法	真实世界视频上表现最佳
AEA, ADT, HOT3D, Nymeria	定性展示	高质量动态重建
TUM Dynamics	vs 其他方法	跨域泛化能力强

注：论文HTML版本不可用，具体定量数据（PSNR/SSIM/LPIPS）未能从当前来源获取。从摘要和代码可知核心结论是"显著优于前馈方法，与优化方法可比"。

消融实验要点¶

Magic Filter (密度控制)：去掉密度控制会导致高斯数量爆炸，无法处理长时空输入
4D时序参数：cov_t（时间协方差）和ms3（运动速度）是建模动态场景的关键，去掉会导致静态/动态物体混淆
两阶段训练：仅用Stage 1的密集高斯渲染质量和效率都不如两阶段方案
TLoD多层级：多层级处理有助于平衡全局一致性和局部细节

亮点¶

4D高斯表示的统一建模：通过时间协方差cov_t和时间位置t，自然统一了静态和动态物体的表示——静态物体的时间生命周期长，动态物体的短，无需显式区分
密度控制是关键创新：Magic Filter基于opacity排序裁剪的思路简单但有效，既减少了渲染开销，又为更大的时空输入腾出了显存空间，是本文能在64帧长序列上前馈推理的核心使能技术
真实世界训练数据：完全在真实世界单目视频上训练，不依赖合成数据，泛化能力强
系统性的工程实现：从数据处理、模型架构到渲染pipeline的完整系统，代码已开源，提供了交互式viewer

局限性 / 可改进方向¶

单目输入的几何精度上限：单目视频缺乏多视角约束，难以恢复精确的几何深度，尤其在遮挡区域
64帧窗口的局限：虽然支持滚动窗口，但窗口间的4D高斯一致性没有显式约束，长视频可能出现窗口间的不连续
训练数据依赖：需要大规模带精确位姿的单目视频，位姿估计误差会影响重建质量
非刚体运动建模：4D高斯的线性运动假设（ms3速度+omega角速度）对非线性复杂运动的建模能力有限
渲染效率：虽然比优化方法快很多，但14.5GB的模型在实时应用中仍有优化空间

与相关工作的对比¶

vs Shape-of-Motion: SoM是逐场景优化方法，精度高但慢（数小时）。4DGT前馈推理仅需秒级，泛化性更好，但在单个场景上的极致精度可能略逊
vs L4GM: L4GM也是前馈3DGS模型，但主要面向合成多视角输入。4DGT在单目真实世界视频上显著更强
vs StaticLRM: StaticLRM仅处理静态场景，没有时间维度建模。4DGT通过4D高斯扩展了对动态场景的支持
vs 4DSTR/4DGC等4D方法: 4DGT的核心优势在于前馈推理+真实世界训练，而非依赖合成数据或逐场景优化

启发与关联¶

与全属性时序校正idea有关联：4DGT的4D高斯参数设计（ms3多度速度衰减、omega角速度）提供了一种参考方案，其ms3_deg_downmax_mult的decay设计可以启发层级时序窗口的设计
与TTT用于4D动力学外推idea有关联：4DGT的滚动窗口推理机制存在窗口间一致性问题，如果引入TTT进行在线自适应更新，可能改善长视频的时序一致性
Magic Filter的密度控制思路可以迁移到其他token-heavy的视觉任务中——基于激活度/重要性裁剪不活跃token是一种通用的效率提升策略
DINOv2作为冻结backbone + 轻量Transformer fusion的架构模式在这类feed-forward 3D生成任务中持续证明有效

评分¶

新颖性: ⭐⭐⭐⭐ 4D高斯Transformer + 密度控制策略的组合有创新性，但各个组件（4DGS、Vision Transformer、DINOv2 backbone）都不是全新的
实验充分度: ⭐⭐⭐⭐ 在多个真实世界数据集上验证，与多个baseline对比，有消融实验；但HTML版本不可用，具体定量结果未能完整获取
写作质量: ⭐⭐⭐⭐ Spotlight论文，来自Meta RL Research & 浙大，代码开源，项目页面完整，系统性好
价值: ⭐⭐⭐⭐⭐ 动态场景前馈重建是高价值方向，从小时级降到秒级的实用性跨越意义重大