Phased One-Step Adversarial Equilibrium for Video Diffusion Models¶

会议: AAAI 2026
arXiv: 2508.21019
代码: https://v-pae.github.io/
领域: 扩散模型 / 视频生成
关键词: 视频扩散蒸馏, 单步生成, 对抗训练, 图像到视频, 采样加速

一句话总结¶

提出 V-PAE（Video Phased Adversarial Equilibrium），通过稳定性预热 + 统一对抗均衡两阶段蒸馏框架，将大规模视频扩散模型（如 Wan2.1-I2V-14B）压缩至单步生成，实现 100 倍加速，在 VBench-I2V 上平均质量超越已有加速方法 5.8%。

研究背景与动机¶

领域现状：视频扩散模型（如 Wan2.1-I2V-14B）在保真度上取得巨大进步，但生成 5 秒视频需 50 步迭代、约 15 分钟（8×H20 GPU），计算代价极高。
现有痛点：现有视频蒸馏方法多是从图像蒸馏技术直接迁移（如 LCM、DMD2、ADD），存在两个根本局限：(a) 无法将大规模（>10B）视频模型蒸馏到单步；(b) 缺乏条件任务的泛化能力，在 I2V 生成中导致语义退化和条件帧崩塌。
核心矛盾：单步对抗蒸馏要求从高斯噪声直接生成视频，但生成视频与真实视频的分布差距巨大，使鉴别器判别过于简单，梯度微弱导致训练不稳定。现有方法（如 DMD2、ADD）只能在中高信噪比区间训练，与低信噪比采样分布不匹配。
本文目标：如何在大规模视频模型上实现高质量单步蒸馏？如何在 I2V 任务中保持视频-图像主题一致性？
切入角度：将蒸馏过程分为两阶段——先用 VSD 缩小分布差距（预热），再在更接近的分布上进行对抗蒸馏（均衡），并复用生成器参数作为鉴别器骨干以节省显存。
核心 idea：分阶段优化策略确保对抗蒸馏在分布对齐后进行，避免了同时混合多种损失导致的次优优化方向问题。

方法详解¶

整体框架¶

V-PAE 包含两个顺序阶段：(a) 稳定性预热（Stability Priming）——利用变分分数蒸馏（VSD）缩小生成视频与真实视频的分布距离；(b) 统一对抗均衡（Unified Adversarial Equilibrium）——复用生成器参数作为鉴别器骨干，在高斯噪声空间实现共演化对抗均衡。对于条件 I2V 任务，额外引入语义鉴别器头和条件 SDS 损失来保持视频-图像主题一致性。

关键设计¶

稳定性预热（Phase I）
- 功能：缩小单步生成视频 \(\hat{x}_0^\theta\) 与真实视频 \(x \sim p_{\text{data}}\) 之间的分布距离，为后续对抗蒸馏提供稳定起点。
- 核心思路：定义三个模型——预热生成器 \(\mu^\theta\)、真实模型 \(\mu_{\text{real}}\)（固定）和伪模型 \(\mu_{\text{fake}}^\phi\)（用 LoRA 轻量追踪生成分布）。生成器在低信噪比区间 \(t \in [0.9T, T]\) 直接生成 \(\hat{x}_0^\theta\)，然后通过加噪后输入真实/伪模型，计算分数梯度差异作为分布匹配损失。伪模型采用 LoRA 适配和零初始化以提高大规模模型的追踪稳定性。
- 设计动机：如果不做预热直接对抗蒸馏，生成视频质量太差导致鉴别器提供信息量不足的梯度，训练极其不稳定。与 DMD2 同时优化 VSD+对抗损失不同，V-PAE 通过分阶段避免了次优优化方向。
统一对抗均衡（Phase II）
- 功能：在预热基础上，通过自鉴别对抗训练进一步提升单步视频生成质量。
- 核心思路：复用生成器 \(\mu^\theta\) 作为鉴别器骨干（自鉴别器），配合轻量鉴别器头 \(d^\psi\) 计算判别 logits。生成器从端点 \(\epsilon\) 直接采样 \(\hat{x}_0^\theta = f^\theta(\epsilon, T)\)，加噪后送入自鉴别器抽取多层特征用于判别。采用 Hinge loss 进行对抗训练，并使用 EMA 权重 \(\theta^-\) 保证均衡稳定性。此外引入时空差分 R1 正则化 \(\mathcal{L}_{\text{STR1}}\) 防止梯度爆炸，其中空间扰动 \(\sigma_s=0.01\)、时间扰动 \(\sigma_t=0.1\)。
- 设计动机：传统方式需要单独的鉴别器骨干（冻结导致参数不对称、全参训练导致 OOM）。复用生成器作为骨干在有限显存下实现高效共演化，是唯一能在 14B 模型上可行的方案。
视频-图像主题一致性保持
- 功能：解决 I2V 蒸馏中的语义退化和条件帧崩塌问题。
- 核心思路：(a) 语义鉴别器头：通过可学习查询 \(q\) 与条件图像嵌入、文本嵌入拼接后做自注意力，再与骨干多层特征交叉注意力，增强语义感知能力。(b) 条件 SDS 损失：利用预训练模型 \(\mu_{\text{real}}\) 的分布稳定性，通过 \(\mathcal{L}_{\text{C-SDS}} = \mathbb{E}[\|\hat{x}_0^\theta - f_{\text{real}}(\text{sg}(\hat{x}_{t'}^\theta), t')\|^2]\) 减小条件帧与生成帧之间的差异，防止条件帧崩塌。
- 设计动机：I2V 是视频生成的主要应用，但单步蒸馏严重破坏视频与输入图像的语义一致性。多模态语义鉴别器头弥补了纯对抗训练对语义感知的不足。

损失函数 / 训练策略¶

Phase I（500 步）：学习率 \(1 \times 10^{-6}\)，用 VSD 分布匹配损失训练，伪模型用 LoRA 追踪。
Phase II（1000 步）：学习率 \(2 \times 10^{-6}\)，生成器损失 \(\mathcal{L}_G = \mathcal{L}_{\text{UAE-G}} + 10 \cdot \mathcal{L}_{\text{C-SDS}}\)，鉴别器头损失 \(\mathcal{L}_D = \mathcal{L}_{\text{UAE-D}} + \mathcal{L}_{\text{STR1}}\)，EMA 衰减率 0.995。
数据：合成数据（Wan2.1-T2V-14B 生成）+ 开源数据（Koala-36M、Intern4K）。

实验关键数据¶

主实验¶

在 VBench-I2V 上对比各蒸馏方法（基线模型 Wan2.1-I2V-14B）：

方法	类型	NFE	语义对齐 (SA)	时序连贯 (TC)	帧质量 (FQ)	总分	延迟(s)
Baseline	Euler	100	92.90	80.82	70.44	-	890
APT	AD	1	84.87	75.21	64.69	-	-
DMD2	VSD	1	83.15	71.67	62.47	-	-
MD	VSD	1	84.02	74.25	64.76	-	-
V-PAE	AD	1	91.54	79.56	68.66	-	9.37
V-PAE	AD	4	94.93	82.24	70.76	-	-

消融实验¶

配置	SA	TC	FQ	说明
无预热 + 对抗	-	-	-	对抗训练不稳定，大分布偏差
一致性蒸馏预热 (APT式)	80.05	67.96	56.55	Phase I 质量中等
V-PAE Phase I (VSD)	84.92	72.34	59.75	VSD 预热更好
冻结骨干鉴别器	较低	较低	较低	参数不对称导致质量下降
全参鉴别器	OOM	OOM	OOM	14B 模型显存不足
自鉴别器（V-PAE）	最优	最优	最优	共演化均衡

关键发现¶

稳定性预热至关重要：去掉 Phase I 导致对抗训练严重不稳定。
V-PAE 在 1-NFE 下接近 100-NFE 基线（差距仅 1.5%），4-NFE 下反超 3.3%。
自鉴别器是唯一在 14B 参数量级可行且效果最优的鉴别器方案。
条件 SDS 损失的注入强度 \(\lambda=10\) 在 I2V 中对防止条件帧崩塌效果显著，\(\lambda\) 过小会导致首帧与后续帧不一致。

亮点与洞察¶

分阶段蒸馏思想：先缩小分布差距再做对抗是非常直觉且有效的策略，避免了 DMD2 那种同时优化多损失导致的次优方向问题，这个思路可以迁移到其他分布差距大的蒸馏任务。
自鉴别器设计：复用生成器作为鉴别器骨干，既省显存又实现共演化，是在超大模型上做对抗蒸馏的巧妙工程方案。
从 15 分钟到 10 秒的 100x 加速，对实时视频生成应用有重大意义。

局限与展望¶

仅在 I2V 任务上验证，T2V 的泛化能力未充分展示。
训练仍需大量高质量视频数据（合成+开源），数据准备成本不低。
单步生成与 100 步模型仍有 1.5% 的质量差距，极端场景（复杂运动、多物体交互）可能更明显。
未与最新的 Flow Matching 加速方法进行对比。

评分¶

新颖性: ⭐⭐⭐⭐ 分阶段蒸馏和自鉴别器思路有新意，但核心组件（VSD、对抗蒸馏）都是已有技术的组合
实验充分度: ⭐⭐⭐⭐ VBench-I2V 评测全面，消融充分，但缺少 T2V 和其他模型的验证
写作质量: ⭐⭐⭐⭐ 结构清晰，动机推导合理
价值: ⭐⭐⭐⭐⭐ 100x 加速对视频生成实时化有重大实用价值