Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis¶

会议: ICCV 2025
arXiv: 2507.23785
代码: GVFDiffusion.github.io
领域: 3D视觉
关键词: 4D生成, 视频到4D, 高斯变化场, 扩散模型, 3D Gaussian Splatting

一句话总结¶

提出一种视频到4D生成框架，通过Direct 4DMesh-to-GS Variation Field VAE将动画数据直接编码为紧凑的高斯变化场潜在空间，再训练时序感知的扩散模型生成动态3D内容，在4.5秒内实现高保真4D合成，并展示了对真实视频输入的优越泛化能力。

研究背景与动机¶

4D生成——创建动态3D内容——是继图像、视频和3D生成之后的下一个前沿方向。现实世界现象固有地结合了空间和时间动态，但训练鲁棒的4D扩散模型面临两大技术挑战：

大规模4D数据集构建成本高：直接方法需要对每个3D动画序列拟合独立的动态高斯溅射（4DGS）表示，通常每个实例需要几十分钟（4DGaussians需6分钟，K-planes需30+分钟），计算昂贵且难以扩展

高维表示难以直接建模：同时表示3D形状、外观和运动通常需要超过100K tokens，使直接的扩散建模极其困难

现有方法的不足： - 基于优化的方法（Consistent4D, STAG4D等）依赖SDS蒸馏，耗时1小时以上且存在时空不一致 - 前馈方法（L4GM）使用2D生成的多视角图像重建4DGS，但2D生成的多视角不一致会导致质量下降 - 缺乏原生的4D扩散模型，需要从2D/3D先验间接推导

核心思路：将4D生成分解为canonical 3DGS生成（利用已有3D模型）和高斯变化场（Gaussian Variation Fields）建模，通过直接编码3D动画数据绕过逐实例拟合，将高维运动信息压缩到紧凑潜在空间。

方法详解¶

整体框架¶

给定输入视频 $\mathcal{I} = \{I_t\}_{t=1}^T$，目标是生成3DGS序列 $\mathcal{G} = \{G_t\}_{t=1}^T$。分解为： - Canonical GS $G_1$：使用第一帧生成静态3DGS（利用预训练3D模型） - 高斯变化场 $\mathcal{V} = \{\Delta G_t\}_{t=1}^T$：描述每个高斯属性相对于 $G_1$ 的时序变化

框架包含两个主要组件：(1) Direct 4DMesh-to-GS Variation Field VAE；(2) Gaussian Variation Field扩散模型。

关键设计¶

Direct 4DMesh-to-GS Variation Field VAE：

编码过程： - 将mesh动画序列转换为点云 $\mathcal{P} = \{P_t \in \mathbb{R}^{N \times 3}\}_{t=1}^T$（$N = 8192$） - 计算位移场 $\Delta P_t = P_t - P_1$ - 使用预训练Mesh-to-GS编码器获取canonical GS：$G_1 = \mathcal{D}_{GS}(\mathcal{E}_{GS}(M_1))$

Mesh-guided插值机制（关键创新）：为每个canonical高斯位置 $\bm{p}_1^i$ 找K近邻，使用自适应半径加权插值位移场：

$$\bm{w}_{i,k} = \exp(-\frac{\beta \bm{d}_{i,k}}{r_i^2}), \quad r_i = \sqrt{\frac{1}{K}\sum_{k=1}^K \bm{d}_{i,k}}$$

$$\Delta \bm{p}_{t,i}^{interp} = \sum_{k=1}^K \frac{\bm{w}_{i,k}}{\sum_k \bm{w}_{i,k}} \Delta P_{t,n(i,k)}$$

然后对插值后的位移使用FPS采样得到运动感知query $\Delta \bm{p}_t^{fps} \in \mathbb{R}^{L \times 3}$，通过cross-attention编码为潜在表示 $\bm{z} \in \mathbb{R}^{T \times L \times C}$（$L = 512$, $C = 16$），将序列长度从 $N = 8192$ 压缩到 $L = 512$。

解码过程：通过self-attention处理潜在表示后，使用canonical GS的所有参数作为query通过cross-attention解码出变化场 $\Delta G_t = \{\Delta \bm{p}_t, \Delta \bm{s}_t, \Delta \bm{q}_t, \Delta \bm{c}_t, \Delta \alpha_t\}$。

Gaussian Variation Field扩散模型：

基于Diffusion Transformer（DiT）架构，核心创新： - 时序自注意力层：在标准空间自注意力之外加入时序自注意力，捕捉帧间运动连贯性 - 双条件注入：通过cross-attention注入视频视觉特征 $\mathcal{C}^v$（DINOv2提取）和canonical GS几何特征 $\mathcal{C}^{GS}$ - 位置先验嵌入：基于canonical GS位置 $\bm{p}_1^{fps}$ 的位置编码，增强模型对空间位置和变化场对应关系的感知

使用velocity prediction参数化，训练目标：

$$\mathcal{L}_{simple} = \mathbb{E}_{s, \bm{z}^0, \bm{\epsilon}} \left[ \|\hat{\bm{v}}_\theta(\alpha_s \bm{z}^0 + \sigma_s \bm{\epsilon}, s, \mathcal{C}) - \bm{v}^s\|_2^2 \right]$$

Mesh-guided Loss：

对齐预测的高斯位移与mesh插值得到的伪GT位移，是运动重建质量的关键：

$$\mathcal{L}_{mg} = \sum_{t=1}^T \|\Delta \mathbf{p}_t - \Delta \bm{p}_t^{interp}\|_2^2$$

损失函数 / 训练策略¶

VAE训练：两阶段——先微调canonical GS decoder 150K iterations，再与其他模块联合训练200K iterations。总损失 $\mathcal{L}_{total} = \mathcal{L}_{img} + \lambda_{mg}\mathcal{L}_{mg} + \lambda_{kl}\mathcal{L}_{kl}$，其中 $\mathcal{L}_{img}$ 含L1 + LPIPS + SSIM。

扩散模型训练：在24帧序列上训练1300K iterations，使用cosine noise schedule和1000 timesteps。推理时支持32帧生成。

实验关键数据¶

主实验（视频到4D生成）¶

方法	PSNR↑	LPIPS↓	SSIM↑	CLIP↑	FVD↓	时间↓
Consistent4D	16.20	0.146	0.880	0.910	935.19	~1.5hr
SC4D	15.93	0.164	0.872	0.870	833.15	~20min
STAG4D	16.85	0.144	0.887	0.893	1008.40	~1hr
DreamGaussian4D	15.24	0.162	0.868	0.904	799.56	~15min
L4GM	17.03	0.128	0.891	0.930	529.10	3.5s
本文	18.47	0.114	0.901	0.935	476.83	4.5s

本文在所有质量指标上均达最佳，PSNR提升1.44dB（vs L4GM），FVD降低9.9%（476.83 vs 529.10），时间仅4.5秒（3.0s canonical GS + 1.5s变化场扩散）。

消融实验¶

VAE关键组件消融：

配置	Encoder Query	Mesh-guided Loss	Variation Attrs	PSNR↑	LPIPS↓	SSIM↑
A. 基线	$\bm{p}_t^{fps}$	✗	$\Delta\bm{p},\Delta\bm{s},\Delta\bm{q}$	23.25	0.0678	0.936
B. +mesh loss	$\bm{p}_t^{fps}$	✓	$\Delta\bm{p},\Delta\bm{s},\Delta\bm{q}$	26.17	0.0544	0.950
C. +运动query	$\Delta\bm{p}_t^{fps}$	✓	$\Delta\bm{p},\Delta\bm{s},\Delta\bm{q}$	28.58	0.0478	0.958
D. 完整（本文）	$\Delta\bm{p}_t^{fps}$	✓	全部5项	29.28	0.0439	0.964

扩散模型消融：

方法	PSNR↑	LPIPS↓	SSIM↑	CLIP↑	FVD↓
无位置嵌入	17.86	0.121	0.897	0.931	547.20
完整模型	18.47	0.114	0.901	0.935	476.83

关键发现¶

Mesh-guided loss是运动学习的关键：Config A→B PSNR提升2.92dB，解决了缺乏GT高斯运动监督的核心困难
运动感知query远优于静态位置query：Config B→C PSNR提升2.41dB
颜色和不透明度变化也很重要：加入 $\Delta\bm{c}_t$ 和 $\Delta\alpha_t$ 额外提升0.7dB
位置先验嵌入对扩散模型至关重要：增强了空间位置与变化场的对应关系感知

亮点与洞察¶

绕过逐实例拟合：直接从mesh动画编码高斯变化场，单次前向传播完成，避免了4DGS重建的高昂成本
4D分解策略高效：将4D问题分解为canonical 3DGS生成 + 变化场建模，降低了扩散建模的维度
运动感知编码设计精妙：mesh-guided插值架桥了mesh运动和高斯运动，运动感知query大幅提升编码质量
合成到真实的泛化：仅在合成数据训练却能处理in-the-wild视频，证明了学到的运动先验的泛化性

局限与展望¶

训练数据仅34K动画物体，数据规模受限于高质量动画资源的稀缺
推理需要先通过预训练3D模型生成canonical GS，依赖第三方模型的质量
目前支持32帧动画生成，对长序列动画可能需要自回归或滑动窗口策略
对于复杂拓扑变化（如物体分裂/合并）的运动建模能力待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 原生4D扩散模型方向开创性工作，VAE直接编码策略绕过逐实例拟合
实验充分度: ⭐⭐⭐⭐ 定量对比全面、消融清晰，但测试集仅100个物体
写作质量: ⭐⭐⭐⭐ 框架描述清晰，技术细节完整，消融实验设计合理
价值: ⭐⭐⭐⭐⭐ 4D生成的实用解决方案，4.5秒生成时间具有实际应用潜力