FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance¶
会议: CVPR 2026
arXiv: 2603.12146
代码: 待确认
领域: 视频生成 / 扩散模型 / 运动控制
关键词: 少步生成, 轨迹可控视频生成, 扩散蒸馏, 对抗训练, 运动控制
一句话总结¶
提出 FlashMotion 三阶段训练框架——先训轨迹 adapter、再蒸馏少步生成器、最后用扩散+对抗混合目标微调 adapter——在少步推理下实现高质量轨迹可控视频生成,并发布 FlashBench 评估基准。
背景与动机¶
轨迹可控视频生成近年取得显著进展,主流方案使用 adapter 架构沿预定义轨迹实现精确运动控制。但所有现有方法均依赖多步去噪过程(通常 25-50 步),推理时间和计算开销巨大。另一方面,虽然视频蒸馏方法可以将多步生成器蒸馏为少步版本,但直接将这些蒸馏技术应用于轨迹可控视频生成,会导致视频质量和轨迹精度同时明显下降。原因在于蒸馏过程改变了生成器的特征分布,而原本为多步生成器训练的 adapter 无法适配。
核心问题¶
如何在保持轨迹控制精度和视频质量的前提下,将轨迹可控视频生成的推理步数从数十步降至少数几步(如 4 步),从而实现实时或近实时的可控视频生成?
方法详解¶
整体框架¶
FlashMotion 采用三阶段流程:(1) 在多步视频生成器上训练轨迹 adapter,获得精确轨迹控制能力;(2) 将多步生成器蒸馏为少步版本;(3) 用混合微调策略重新对齐 adapter 与少步生成器。
关键设计¶
- 阶段一:多步 Adapter 训练:在完整的多步视频扩散模型上训练轨迹控制 adapter,确保 adapter 学到准确的运动控制能力。这一步与现有方法(如 DragAnything、MotionCtrl)类似。
- 阶段二:生成器蒸馏:利用现有视频蒸馏方法将多步生成器加速为少步版本。此阶段不涉及 adapter,仅蒸馏基础生成器。蒸馏后生成器的特征空间发生变化,导致原 adapter 失效。
- 阶段三:混合微调对齐:核心创新点。将 adapter 接入少步生成器后,用扩散目标(reconstruction loss)和对抗目标(adversarial loss)的混合策略微调 adapter 参数。扩散目标保持轨迹精度,对抗目标提升视频的视觉真实感和时序连贯性,两者互补。
- FlashBench 基准:专为长序列轨迹可控视频生成设计的评估基准,同时衡量视频质量(FVD、FID 等)和轨迹精度(ATE、位移误差等),支持不同前景物体数量的评估。
损失函数 / 训练策略¶
混合微调阶段的总损失为扩散损失与对抗损失的加权组合。扩散部分使用标准的噪声预测 MSE 损失保持轨迹控制能力;对抗部分引入判别器对少步生成的视频帧进行真伪判断,推动生成器产生更逼真的视频。在两种 adapter 架构上(如 MotionCtrl 风格和 DragAnything 风格)均验证了该框架的通用性。
实验关键数据¶
| 方法 | 推理步数 | 视频质量 | 轨迹精度 | 说明 |
|---|---|---|---|---|
| 多步基线 (adapter) | 25-50 | 高 | 高 | 速度慢 |
| 直接蒸馏+原adapter | 4 | 明显下降 | 明显下降 | adapter不兼容 |
| FlashMotion | 4 | 超越多步 | 超越多步 | 混合微调对齐 |
FlashMotion 在两种 adapter 架构上均超越了现有视频蒸馏方法和多步模型,在视觉质量和轨迹一致性两个维度同时取得最优。少步推理下加速约 6-12 倍。
消融实验要点¶
- 仅用扩散目标微调:轨迹精度保持好但视频质量不足
- 仅用对抗目标微调:视频质量好但轨迹控制退化
- 扩散+对抗混合:两者互补达到最优平衡
- 直接将蒸馏方法应用于带 adapter 的模型效果差,验证了"先蒸馏再对齐"策略的必要性
亮点¶
- 三阶段解耦设计思路清晰:分离轨迹 adapter 训练、生成器加速和对齐三个子问题
- 混合微调是关键创新:扩散目标管"准",对抗目标管"美"
- FlashBench 填补了长序列轨迹可控视频生成评估的空白
局限性¶
- 少步生成在复杂场景(多物体交互、遮挡等)下的鲁棒性需进一步验证
- 对抗训练引入的模式崩溃风险需要仔细调节超参数
- 仅在特定基础模型上验证,对不同视频扩散架构的泛化性有待确认
与相关工作的对比¶
- AnimateDiff + 蒸馏:直接蒸馏带 adapter 的模型会导致 adapter 失效,FlashMotion 的分离策略解决了这一问题
- DragAnything / MotionCtrl:多步推理速度慢,FlashMotion 在保持甚至超越其质量的前提下加速 6-12 倍
- ADD / DMD 等视频蒸馏:不考虑可控性,直接应用到轨迹可控场景效果差
评分¶
- 新颖性: ⭐⭐⭐⭐ (三阶段解耦+混合微调对齐是清晰的新贡献)
- 实验充分度: ⭐⭐⭐⭐ (两种adapter架构+FlashBench基准+详细消融)
- 写作质量: ⭐⭐⭐⭐ (问题定义清晰,方法动机明确)
- 价值: ⭐⭐⭐ (可控视频生成加速的实用框架)