跳转至

Improved Video VAE for Latent Video Diffusion Model

会议: CVPR 2025
arXiv: 2411.06449
代码: https://wpy1999.github.io/IV-VAE (有)
领域: 扩散模型
关键词: 视频VAE, 时序压缩, 因果卷积, 关键帧, 潜空间扩散

一句话总结

本文提出 IV-VAE,通过关键帧时序压缩架构(KTC)和组因果卷积(GCConv)解决现有视频 VAE 中图像权重初始化抑制时序压缩学习、以及因果卷积导致帧间性能不均衡的问题,在多个基准上实现 SOTA 视频重建和生成质量。

研究背景与动机

领域现状:潜空间视频扩散模型(如 Sora、SVD)依赖 VAE 将像素空间压缩到低维潜空间。现有视频 VAE(如 Open-Sora、OD-VAE、CogVideoX)普遍采用将预训练的 2D 图像 VAE 膨胀为 3D 因果结构的策略,以同时实现时空压缩。

现有痛点:作者发现两个关键问题——(1)从同等潜通道维度的图像 VAE 初始化会抑制后续时序压缩能力的提升,因为高维度图像 VAE 的空间压缩能力增益递减,且高维初始化会导致空间压缩性能急剧下降和时序压缩收敛缓慢;(2)3D 因果卷积的单向信息流使得同一帧组内各帧的信息交互不等、前帧无法获取后帧信息,导致重建质量在帧间波动(前帧差、后帧好),表现为明显的闪烁现象。

核心矛盾:时空压缩之间存在冲突——图像 VAE 初始化将全部潜通道用于空间压缩,留给时序压缩的学习空间不足;因果卷积保证了长视频编码的连续性,但牺牲了帧组内部的信息交互均等性。

本文目标 (1)如何提供更平衡的时空压缩初始化以加速收敛?(2)如何在保持因果逻辑的同时实现帧组内均衡的信息交互?

切入角度:作者观察到低维度(Z/2)图像 VAE 的空间压缩能力已经足够支撑时空压缩视频 VAE(维度 Z),且继承低维权重+利用剩余通道进行初始时序压缩反而收敛更快更好。同样观察到帧组内帧间不均衡的根源是因果卷积的单向性,应在帧组内改用标准卷积。

核心 idea:用双分支关键帧架构解耦时空压缩初始化,用组因果卷积替换因果卷积实现帧间均衡交互。

方法详解

整体框架

IV-VAE 基于 UNet 架构,输入为视频帧序列,输出为潜空间表示及重建视频。编码器和解码器均采用提出的 KTC Unit 作为基础单元。整体 pipeline 包含三个核心改进:组因果卷积(GCConv)替代标准因果卷积,KTC 双分支架构解耦时空压缩,以及时序运动感知增强(TMPE)扩大感受野。时序压缩率为 4×,空间压缩率为 8×8。

关键设计

  1. 组因果卷积(GCConv):

    • 功能:在保持帧组间因果逻辑的同时,实现帧组内部各帧的均等信息交互
    • 核心思路:按照时序压缩率 \(t_c=4\) 将连续帧分组,每 4 帧为一个帧组(首帧单独成组)。帧组之间用因果逻辑 padding(每组前 pad 上一组末帧,后 pad 零),帧组内部使用标准卷积使所有帧共享等价的交互信息。padding 后各组使用同一个标准卷积分别处理。注意每次时序下采样/上采样后帧组内帧数相应变化。
    • 设计动机:标准因果卷积让帧组内前帧无法感知后帧信息,导致前帧重建差、后帧好,产生闪烁。组因果卷积保留了帧组间的因果依赖(适合长视频分段编解码),同时用标准卷积消除帧组内的不均衡性。
  2. 关键帧时序压缩架构(KTC):

    • 功能:提供更平衡的时空压缩初始化,加速视频 VAE 收敛
    • 核心思路:将每个基础单元分为 2D 分支和 3D 分支,各输出 \(C_{out}/2\) 通道。2D 分支用 2D 卷积提取关键帧的空间信息,3D 分支用 GCConv 提取整体时序运动信息。两分支分别经 RMS-Norm 归一化后沿通道拼接。初始化时,两分支分别用潜通道数为 Z/2 的预训练图像 VAE 权重初始化(3D 分支通过中心初始化膨胀)。输出时,2D 分支负责关键帧重建,3D 分支负责其余帧重建。
    • 设计动机:直接用 Z 维度图像 VAE 初始化,所有通道都已被空间压缩占满,时序压缩无从下手。而用 Z/2 维度初始化并把剩余通道留给时序压缩,相当于一开始就获得了 2× 时序压缩能力,收敛更快。
  3. 时序运动感知增强(TMPE):

    • 功能:扩大感受野以增强高分辨率下的时序运动感知能力
    • 核心思路:在编码器最后一层引入多尺度并行空洞卷积(PAC,借鉴 ASPP),不同膨胀率的特征拼接后通过 1×1 卷积调整通道数。同时将注意力模块从 2 个扩展到 7 个,所有注意力模块在完全时空压缩后执行以减少计算。
    • 设计动机:高分辨率视频中相同运动对应更大的像素跨度,局部感受野难以捕捉运动模式。空洞卷积和注意力模块联合扩大感受野,尤其在高分辨率下提升时序运动捕捉能力。

损失函数 / 训练策略

训练分阶段进行:先训练图像 VAE(256×256, 200k steps),再膨胀到 3D 并在 256×256 视频上训练 500k steps,再扩大到 512×512 训练 200k steps,最后在不同分辨率和帧数上训练 100k steps(此阶段加入 3D GAN 判别器损失)。损失函数包括 KL 散度、MAE 和 LPIPS。结构上还将 GroupNorm 替换为 RMSNorm 以保持时序因果性,并优化了空间上采样时的通道缩减位置以降低 29% 峰值显存。

实验关键数据

主实验

数据集 指标 IV-VAE (Z=4) OD-VAE 提升
Kinetics-600 FVD↓ 8.01 10.69 -2.68
Kinetics-600 PSNR↑ 34.29 33.88 +0.41
ActivityNet FVD↓ 6.08 8.10 -2.02
Kinetics-600 (Z=16) FVD↓ 2.97 3.28 (Causal) -0.31
Kinetics-600 (Z=16) PSNR↑ 39.02 38.38 (CogX) +0.64

IV-VAE 在所有潜通道维度(Z=4/8/16)下均优于对应 baseline,且参数量仅为 OD-VAE 的不到一半(107M vs 239M),比 OS-VAE 减少 73% 参数。

消融实验

配置 PSNR↑ SSIM↑ LPIPS↓ 说明
(A) Baseline Causal VAE 31.29 0.9042 0.05233 基线
(B) + GCConv 31.64 0.9082 0.05028 帧间均衡交互有效
(C) + KTC 31.86 0.9116 0.04865 双分支时空解耦有效
(D) + GCConv + KTC 32.12 0.9145 0.04744 两者互补
(E) Full IV-VAE 32.24 0.9158 0.04725 TMPE 进一步提升

关键发现

  • KTC 是贡献最大的模块(+0.57 PSNR),GCConv 次之(+0.35 PSNR),TMPE 贡献较小但仅增加 3M 参数
  • KTC 的优势在高潜通道维度(Z=8, 16)下更加显著,因为高维度图像 VAE 的空间压缩增益递减
  • 在高分辨率场景(1080P MotionHD)下,IV-VAE 相对优势更明显(PSNR 对 CogX-VAE 的领先从 480P 的 0.28 扩大到 1080P 的 1.65)
  • Cache 机制相比 Overlap 机制完全等价于单步重建结果,且更省时省显存

亮点与洞察

  • 低维初始化反超高维初始化:违反直觉地发现用更少潜通道的图像 VAE 初始化反而更好,揭示了时空压缩间的张力,这一观察可迁移到任何需要多维度压缩的 VAE 设计中
  • 组因果卷积的设计很优雅:在帧组间保持因果逻辑用于长视频编码,帧组内用标准卷积保证均衡性,两全其美。这种"组内双向、组间单向"的思路可以推广到其他序列建模任务
  • MotionHD 数据集:提出按运动分布均匀采样的 1080P 评测集,弥补了现有数据集要么分辨率不够、要么运动偏慢的短板

局限与展望

  • 整体架构仍基于 UNet,缺乏全局感受野,作者指出未来可考虑 DiT 或 Mamba 架构
  • 空间下采样次数与压缩率对齐限制了感受野,高分辨率大运动场景仍有提升空间
  • TMPE 中的注意力模块扩展到 7 个会增加计算,对于更大分辨率/更长视频需要更高效的全局建模方案

相关工作与启发

  • vs CogVideoX VAE: CogX 使用 16 通道 + 因果卷积,IV-VAE 在相同通道数下 PSNR 更高(39.02 vs 38.38),且参数量仅为一半
  • vs Open-Sora VAE: OS-VAE 采用堆叠式两阶段压缩,参数量大(393M),IV-VAE 以 107M 参数实现更低 FVD(8.01 vs 19.05)
  • vs CV-VAE: CV-VAE 用潜空间正则化避免分布偏移但重建质量较差,IV-VAE 从架构层面解决时空压缩冲突

评分

  • 新颖性: ⭐⭐⭐⭐ 关键帧双分支和组因果卷积的设计新颖且有理论观察支撑,但整体框架仍基于 UNet
  • 实验充分度: ⭐⭐⭐⭐⭐ 五个基准、三种通道维度、多分辨率评测、消融全面,还提出新数据集
  • 写作质量: ⭐⭐⭐⭐ 动机分析清晰明了,Fig.1 的信息保存度曲线非常说服力
  • 价值: ⭐⭐⭐⭐ 对视频 VAE 设计提出了有价值的洞察和改进,可作为视频生成基础组件

相关论文