Improved Video VAE for Latent Video Diffusion Model¶
会议: CVPR 2025
arXiv: 2411.06449
代码: https://wpy1999.github.io/IV-VAE (有)
领域: 扩散模型
关键词: 视频VAE, 时序压缩, 因果卷积, 关键帧, 潜空间扩散
一句话总结¶
本文提出 IV-VAE,通过关键帧时序压缩架构(KTC)和组因果卷积(GCConv)解决现有视频 VAE 中图像权重初始化抑制时序压缩学习、以及因果卷积导致帧间性能不均衡的问题,在多个基准上实现 SOTA 视频重建和生成质量。
研究背景与动机¶
领域现状:潜空间视频扩散模型(如 Sora、SVD)依赖 VAE 将像素空间压缩到低维潜空间。现有视频 VAE(如 Open-Sora、OD-VAE、CogVideoX)普遍采用将预训练的 2D 图像 VAE 膨胀为 3D 因果结构的策略,以同时实现时空压缩。
现有痛点:作者发现两个关键问题——(1)从同等潜通道维度的图像 VAE 初始化会抑制后续时序压缩能力的提升,因为高维度图像 VAE 的空间压缩能力增益递减,且高维初始化会导致空间压缩性能急剧下降和时序压缩收敛缓慢;(2)3D 因果卷积的单向信息流使得同一帧组内各帧的信息交互不等、前帧无法获取后帧信息,导致重建质量在帧间波动(前帧差、后帧好),表现为明显的闪烁现象。
核心矛盾:时空压缩之间存在冲突——图像 VAE 初始化将全部潜通道用于空间压缩,留给时序压缩的学习空间不足;因果卷积保证了长视频编码的连续性,但牺牲了帧组内部的信息交互均等性。
本文目标 (1)如何提供更平衡的时空压缩初始化以加速收敛?(2)如何在保持因果逻辑的同时实现帧组内均衡的信息交互?
切入角度:作者观察到低维度(Z/2)图像 VAE 的空间压缩能力已经足够支撑时空压缩视频 VAE(维度 Z),且继承低维权重+利用剩余通道进行初始时序压缩反而收敛更快更好。同样观察到帧组内帧间不均衡的根源是因果卷积的单向性,应在帧组内改用标准卷积。
核心 idea:用双分支关键帧架构解耦时空压缩初始化,用组因果卷积替换因果卷积实现帧间均衡交互。
方法详解¶
整体框架¶
IV-VAE 基于 UNet 架构,输入为视频帧序列,输出为潜空间表示及重建视频。编码器和解码器均采用提出的 KTC Unit 作为基础单元。整体 pipeline 包含三个核心改进:组因果卷积(GCConv)替代标准因果卷积,KTC 双分支架构解耦时空压缩,以及时序运动感知增强(TMPE)扩大感受野。时序压缩率为 4×,空间压缩率为 8×8。
关键设计¶
-
组因果卷积(GCConv):
- 功能:在保持帧组间因果逻辑的同时,实现帧组内部各帧的均等信息交互
- 核心思路:按照时序压缩率 \(t_c=4\) 将连续帧分组,每 4 帧为一个帧组(首帧单独成组)。帧组之间用因果逻辑 padding(每组前 pad 上一组末帧,后 pad 零),帧组内部使用标准卷积使所有帧共享等价的交互信息。padding 后各组使用同一个标准卷积分别处理。注意每次时序下采样/上采样后帧组内帧数相应变化。
- 设计动机:标准因果卷积让帧组内前帧无法感知后帧信息,导致前帧重建差、后帧好,产生闪烁。组因果卷积保留了帧组间的因果依赖(适合长视频分段编解码),同时用标准卷积消除帧组内的不均衡性。
-
关键帧时序压缩架构(KTC):
- 功能:提供更平衡的时空压缩初始化,加速视频 VAE 收敛
- 核心思路:将每个基础单元分为 2D 分支和 3D 分支,各输出 \(C_{out}/2\) 通道。2D 分支用 2D 卷积提取关键帧的空间信息,3D 分支用 GCConv 提取整体时序运动信息。两分支分别经 RMS-Norm 归一化后沿通道拼接。初始化时,两分支分别用潜通道数为 Z/2 的预训练图像 VAE 权重初始化(3D 分支通过中心初始化膨胀)。输出时,2D 分支负责关键帧重建,3D 分支负责其余帧重建。
- 设计动机:直接用 Z 维度图像 VAE 初始化,所有通道都已被空间压缩占满,时序压缩无从下手。而用 Z/2 维度初始化并把剩余通道留给时序压缩,相当于一开始就获得了 2× 时序压缩能力,收敛更快。
-
时序运动感知增强(TMPE):
- 功能:扩大感受野以增强高分辨率下的时序运动感知能力
- 核心思路:在编码器最后一层引入多尺度并行空洞卷积(PAC,借鉴 ASPP),不同膨胀率的特征拼接后通过 1×1 卷积调整通道数。同时将注意力模块从 2 个扩展到 7 个,所有注意力模块在完全时空压缩后执行以减少计算。
- 设计动机:高分辨率视频中相同运动对应更大的像素跨度,局部感受野难以捕捉运动模式。空洞卷积和注意力模块联合扩大感受野,尤其在高分辨率下提升时序运动捕捉能力。
损失函数 / 训练策略¶
训练分阶段进行:先训练图像 VAE(256×256, 200k steps),再膨胀到 3D 并在 256×256 视频上训练 500k steps,再扩大到 512×512 训练 200k steps,最后在不同分辨率和帧数上训练 100k steps(此阶段加入 3D GAN 判别器损失)。损失函数包括 KL 散度、MAE 和 LPIPS。结构上还将 GroupNorm 替换为 RMSNorm 以保持时序因果性,并优化了空间上采样时的通道缩减位置以降低 29% 峰值显存。
实验关键数据¶
主实验¶
| 数据集 | 指标 | IV-VAE (Z=4) | OD-VAE | 提升 |
|---|---|---|---|---|
| Kinetics-600 | FVD↓ | 8.01 | 10.69 | -2.68 |
| Kinetics-600 | PSNR↑ | 34.29 | 33.88 | +0.41 |
| ActivityNet | FVD↓ | 6.08 | 8.10 | -2.02 |
| Kinetics-600 (Z=16) | FVD↓ | 2.97 | 3.28 (Causal) | -0.31 |
| Kinetics-600 (Z=16) | PSNR↑ | 39.02 | 38.38 (CogX) | +0.64 |
IV-VAE 在所有潜通道维度(Z=4/8/16)下均优于对应 baseline,且参数量仅为 OD-VAE 的不到一半(107M vs 239M),比 OS-VAE 减少 73% 参数。
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ | 说明 |
|---|---|---|---|---|
| (A) Baseline Causal VAE | 31.29 | 0.9042 | 0.05233 | 基线 |
| (B) + GCConv | 31.64 | 0.9082 | 0.05028 | 帧间均衡交互有效 |
| (C) + KTC | 31.86 | 0.9116 | 0.04865 | 双分支时空解耦有效 |
| (D) + GCConv + KTC | 32.12 | 0.9145 | 0.04744 | 两者互补 |
| (E) Full IV-VAE | 32.24 | 0.9158 | 0.04725 | TMPE 进一步提升 |
关键发现¶
- KTC 是贡献最大的模块(+0.57 PSNR),GCConv 次之(+0.35 PSNR),TMPE 贡献较小但仅增加 3M 参数
- KTC 的优势在高潜通道维度(Z=8, 16)下更加显著,因为高维度图像 VAE 的空间压缩增益递减
- 在高分辨率场景(1080P MotionHD)下,IV-VAE 相对优势更明显(PSNR 对 CogX-VAE 的领先从 480P 的 0.28 扩大到 1080P 的 1.65)
- Cache 机制相比 Overlap 机制完全等价于单步重建结果,且更省时省显存
亮点与洞察¶
- 低维初始化反超高维初始化:违反直觉地发现用更少潜通道的图像 VAE 初始化反而更好,揭示了时空压缩间的张力,这一观察可迁移到任何需要多维度压缩的 VAE 设计中
- 组因果卷积的设计很优雅:在帧组间保持因果逻辑用于长视频编码,帧组内用标准卷积保证均衡性,两全其美。这种"组内双向、组间单向"的思路可以推广到其他序列建模任务
- MotionHD 数据集:提出按运动分布均匀采样的 1080P 评测集,弥补了现有数据集要么分辨率不够、要么运动偏慢的短板
局限与展望¶
- 整体架构仍基于 UNet,缺乏全局感受野,作者指出未来可考虑 DiT 或 Mamba 架构
- 空间下采样次数与压缩率对齐限制了感受野,高分辨率大运动场景仍有提升空间
- TMPE 中的注意力模块扩展到 7 个会增加计算,对于更大分辨率/更长视频需要更高效的全局建模方案
相关工作与启发¶
- vs CogVideoX VAE: CogX 使用 16 通道 + 因果卷积,IV-VAE 在相同通道数下 PSNR 更高(39.02 vs 38.38),且参数量仅为一半
- vs Open-Sora VAE: OS-VAE 采用堆叠式两阶段压缩,参数量大(393M),IV-VAE 以 107M 参数实现更低 FVD(8.01 vs 19.05)
- vs CV-VAE: CV-VAE 用潜空间正则化避免分布偏移但重建质量较差,IV-VAE 从架构层面解决时空压缩冲突
评分¶
- 新颖性: ⭐⭐⭐⭐ 关键帧双分支和组因果卷积的设计新颖且有理论观察支撑,但整体框架仍基于 UNet
- 实验充分度: ⭐⭐⭐⭐⭐ 五个基准、三种通道维度、多分辨率评测、消融全面,还提出新数据集
- 写作质量: ⭐⭐⭐⭐ 动机分析清晰明了,Fig.1 的信息保存度曲线非常说服力
- 价值: ⭐⭐⭐⭐ 对视频 VAE 设计提出了有价值的洞察和改进,可作为视频生成基础组件
相关论文¶
- [CVPR 2025] VidTwin: Video VAE with Decoupled Structure and Dynamics
- [CVPR 2025] FADE: Frequency-Aware Diffusion Model Factorization for Video Editing
- [ICCV 2025] LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models
- [CVPR 2025] Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
- [CVPR 2025] VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step