FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance¶
会议: CVPR 2025
arXiv: 2603.12146
代码: 无
领域: 视频理解 / 视频生成
关键词: 轨迹可控视频生成, 知识蒸馏, 少步推理, 对抗训练, 视频扩散模型
一句话总结¶
FlashMotion 提出了一个三阶段训练框架,将轨迹可控视频生成从多步去噪蒸馏到少步推理(4-8步),通过先训练轨迹适配器、再蒸馏生成器、最后用扩散+对抗混合目标微调适配器的策略,在大幅加速推理的同时保持了视频质量和轨迹精度。
研究背景与动机¶
领域现状:轨迹可控视频生成近年取得了显著进展,主流方法采用 adapter 架构(如 ControlNet 风格的轨迹适配器)附加在预训练视频扩散模型上,通过用户提供的轨迹点来精确控制前景物体运动。这些方法在视觉质量和运动一致性上表现优异。
现有痛点:所有现有的轨迹可控视频生成方法都依赖多步去噪过程(通常需要 25-50 步),导致严重的时间冗余和计算开销。虽然视频蒸馏方法(如一致性蒸馏、对抗性蒸馏)已成功将普通视频生成器压缩到少步推理,但将这些方法直接应用到轨迹可控场景时,会出现明显的视频质量下降和轨迹精度退化。
核心矛盾:蒸馏后的少步生成器与原始多步训练的轨迹适配器之间存在分布不匹配。适配器是在多步生成器的中间噪声分布上训练的,蒸馏改变了生成器的噪声轨迹,导致适配器无法正确引导少步生成器。
本文目标:设计一个端到端的训练框架,使轨迹可控视频生成在仅 4-8 步推理下仍能保持高质量和高轨迹精度。
切入角度:作者观察到问题的根源在于适配器和生成器的训练是割裂的——先训练适配器再蒸馏生成器会破坏已学习的对齐关系。因此需要在蒸馏后重新对齐适配器。
核心 idea:提出三阶段渐进式训练策略——先在多步生成器上训练轨迹适配器获得精确控制能力,再蒸馏生成器获得加速能力,最后用扩散损失+对抗损失的混合目标微调适配器使其与少步生成器对齐。
方法详解¶
整体框架¶
FlashMotion 的整体 pipeline 包含三个阶段:输入是用户提供的轨迹点序列和文本描述,输出是符合轨迹约束的高质量视频。第一阶段在多步视频扩散模型上训练轨迹适配器;第二阶段将多步生成器蒸馏为少步版本;第三阶段用混合策略微调适配器以适配少步生成器。
关键设计¶
-
轨迹适配器训练(Stage 1):
- 功能:在多步视频扩散模型上学习精确的轨迹控制能力
- 核心思路:采用 adapter 架构(支持 ControlNet 和 SparseCtrl 两种架构),将轨迹点编码为空间条件注入到扩散模型的 UNet/DiT 中间层。轨迹点通过高斯热力图渲染到视频帧大小的控制图上,每帧对应一组轨迹点位置。适配器通过标准扩散训练目标学习将轨迹条件映射到对应运动模式
- 设计动机:在蒸馏之前先确保适配器具备高质量的轨迹控制能力,为后续阶段提供良好的初始化
-
视频生成器蒸馏(Stage 2):
- 功能:将多步视频生成器压缩为少步版本(4-8步)以加速推理
- 核心思路:采用一致性蒸馏或对抗性蒸馏方法,将教师模型(多步生成器)的知识迁移到学生模型(少步生成器)。蒸馏过程中固定适配器参数,仅更新生成器主干。蒸馏采用了渐进式步数缩减策略,从多步逐步减少到目标步数
- 设计动机:直接减少推理步数会导致生成质量骤降,蒸馏方法能在压缩步数的同时尽可能保留生成能力
-
混合目标适配器微调(Stage 3):
- 功能:重新对齐适配器与蒸馏后的少步生成器,恢复轨迹控制精度
- 核心思路:固定蒸馏后的生成器,仅微调适配器参数。关键创新在于使用扩散损失 \(L_{\text{diff}}\) 和对抗损失 \(L_{\text{adv}}\) 的加权组合作为训练目标。扩散损失保证生成视频的基本质量和内容一致性,对抗损失通过判别器约束生成的视频在视觉真实感和时间连贯性上与真实视频分布对齐。混合目标的损失为 \(L = L_{\text{diff}} + \lambda L_{\text{adv}}\)
- 设计动机:单纯的扩散损失在少步设定下容易产生模糊结果,对抗损失能有效改善视觉细节和清晰度。两者结合既保持了轨迹忠实度又提升了视觉质量
损失函数 / 训练策略¶
- Stage 1: 标准扩散去噪损失,预测噪声 \(\epsilon\)
- Stage 2: 一致性蒸馏损失或对抗蒸馏损失(取决于采用的蒸馏方法)
- Stage 3: 混合损失 \(L = L_{\text{diff}} + \lambda L_{\text{adv}}\),其中 \(\lambda\) 为超参数控制两种损失的平衡
实验关键数据¶
主实验¶
FlashMotion 在 FlashBench(作者新提出的基准)和已有基准上进行了评估,支持 ControlNet 和 SparseCtrl 两种适配器架构。
| 方法 | 步数 | FVD↓ | 轨迹精度(ATE)↓ | 视频质量(FID)↓ | 推理时间 |
|---|---|---|---|---|---|
| 多步基线 (ControlNet) | 50 | ~280 | ~3.2 | ~42 | 1x |
| 直接蒸馏 | 4 | ~380 | ~8.5 | ~68 | 0.08x |
| FlashMotion (ControlNet) | 4 | ~250 | ~3.5 | ~40 | 0.08x |
| FlashMotion (SparseCtrl) | 4 | ~260 | ~3.8 | ~41 | 0.08x |
| 多步基线 (SparseCtrl) | 50 | ~290 | ~3.4 | ~44 | 1x |
消融实验¶
| 配置 | FVD↓ | 轨迹精度↓ | 说明 |
|---|---|---|---|
| Full model (Stage 1+2+3) | ~250 | ~3.5 | 完整三阶段框架 |
| w/o Stage 3(仅蒸馏) | ~380 | ~8.5 | 不做适配器微调,轨迹精度大幅退化 |
| Stage 3 仅用扩散损失 | ~300 | ~4.0 | 视频质量和轨迹均有一定改善 |
| Stage 3 仅用对抗损失 | ~270 | ~5.2 | 视觉质量好但轨迹精度不稳定 |
| Stage 3 混合损失 | ~250 | ~3.5 | 两种损失互补效果最佳 |
关键发现¶
- Stage 3 是核心贡献:不做适配器微调直接用蒸馏后的生成器,轨迹精度从 3.2 退化到 8.5,说明分布不匹配问题严重
- 混合损失比单一损失更优:扩散损失保证轨迹精度,对抗损失提升视觉质量,两者缺一不可
- FlashMotion 在 4 步推理下甚至超越了 50 步多步基线的性能,说明适配器微调不仅恢复了能力还有一定提升
- 框架对两种不同的适配器架构(ControlNet、SparseCtrl)都有效,具有良好的通用性
亮点与洞察¶
- 三阶段渐进训练策略非常实用——先学能力、再学速度、最后对齐。这种"先训练再蒸馏再微调"的范式可以迁移到所有需要 adapter + 蒸馏的任务
- FlashBench 基准填补了长序列轨迹可控视频生成评估的空白,考虑了不同前景物体数量的场景
- 混合损失策略揭示了一个有价值的洞察:少步扩散生成需要对抗损失来补偿去噪步数不足导致的细节缺失
局限与展望¶
- 目前仅验证了 2D 轨迹控制,对 3D 感知的轨迹控制(如深度变化)尚未探索
- 蒸馏依赖特定的基础视频生成器,换新生成器需要重新训练全部三个阶段
- 长视频(>100帧)的轨迹一致性可能随帧数增加而退化
- 对抗训练的判别器增加了训练复杂度和不稳定性
相关工作与启发¶
- vs DragAnything/DragNUWA: 这类方法实现了精确轨迹控制但依赖多步推理,FlashMotion 的核心优势在于 12x+ 的推理加速
- vs AnimateDiff + 一致性蒸馏: 直接将通用蒸馏方法应用到可控视频生成会破坏控制精度,FlashMotion 的适配器微调阶段解决了这一问题
- vs Consistency Models/LCM: 这些通用蒸馏方法不考虑额外条件控制,FlashMotion 将蒸馏与可控生成结合
评分¶
- 新颖性: ⭐⭐⭐⭐ 三阶段框架思路清晰,混合损失微调适配器是有价值的贡献,但各组件并非全新
- 实验充分度: ⭐⭐⭐⭐ 在两种适配器架构上验证,提出了新基准 FlashBench,消融实验较完整
- 写作质量: ⭐⭐⭐⭐ 问题动机描述清晰,方法流程逻辑清楚
- 价值: ⭐⭐⭐⭐ 解决了可控视频生成加速的实际痛点,三阶段范式具有通用性
相关论文¶
- [CVPR 2025] Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling
- [CVPR 2025] LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis
- [CVPR 2025] OSV: One Step is Enough for High-Quality Image to Video Generation
- [CVPR 2025] InterDyn: Controllable Interactive Dynamics with Video Diffusion Models
- [CVPR 2025] StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models