跳转至

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

会议: CVPR 2026
arXiv: 2603.12146
代码: 待确认
领域: 视频生成 / 扩散模型 / 运动控制
关键词: 少步生成, 轨迹可控视频生成, 扩散蒸馏, 对抗训练, 运动控制

一句话总结

提出 FlashMotion 三阶段训练框架——先训轨迹 adapter、再蒸馏少步生成器、最后用扩散+对抗混合目标微调 adapter——在少步推理下实现高质量轨迹可控视频生成,并发布 FlashBench 评估基准。

背景与动机

轨迹可控视频生成近年取得显著进展,主流方案使用 adapter 架构沿预定义轨迹实现精确运动控制。但所有现有方法均依赖多步去噪过程(通常 25-50 步),推理时间和计算开销巨大。另一方面,虽然视频蒸馏方法可以将多步生成器蒸馏为少步版本,但直接将这些蒸馏技术应用于轨迹可控视频生成,会导致视频质量和轨迹精度同时明显下降。原因在于蒸馏过程改变了生成器的特征分布,而原本为多步生成器训练的 adapter 无法适配。

核心问题

如何在保持轨迹控制精度和视频质量的前提下,将轨迹可控视频生成的推理步数从数十步降至少数几步(如 4 步),从而实现实时或近实时的可控视频生成?

方法详解

整体框架

FlashMotion 采用三阶段流程:(1) 在多步视频生成器上训练轨迹 adapter,获得精确轨迹控制能力;(2) 将多步生成器蒸馏为少步版本;(3) 用混合微调策略重新对齐 adapter 与少步生成器。

关键设计

  1. 阶段一:多步 Adapter 训练:在完整的多步视频扩散模型上训练轨迹控制 adapter,确保 adapter 学到准确的运动控制能力。这一步与现有方法(如 DragAnything、MotionCtrl)类似。
  2. 阶段二:生成器蒸馏:利用现有视频蒸馏方法将多步生成器加速为少步版本。此阶段不涉及 adapter,仅蒸馏基础生成器。蒸馏后生成器的特征空间发生变化,导致原 adapter 失效。
  3. 阶段三:混合微调对齐:核心创新点。将 adapter 接入少步生成器后,用扩散目标(reconstruction loss)和对抗目标(adversarial loss)的混合策略微调 adapter 参数。扩散目标保持轨迹精度,对抗目标提升视频的视觉真实感和时序连贯性,两者互补。
  4. FlashBench 基准:专为长序列轨迹可控视频生成设计的评估基准,同时衡量视频质量(FVD、FID 等)和轨迹精度(ATE、位移误差等),支持不同前景物体数量的评估。

损失函数 / 训练策略

混合微调阶段的总损失为扩散损失与对抗损失的加权组合。扩散部分使用标准的噪声预测 MSE 损失保持轨迹控制能力;对抗部分引入判别器对少步生成的视频帧进行真伪判断,推动生成器产生更逼真的视频。在两种 adapter 架构上(如 MotionCtrl 风格和 DragAnything 风格)均验证了该框架的通用性。

实验关键数据

方法 推理步数 视频质量 轨迹精度 说明
多步基线 (adapter) 25-50 速度慢
直接蒸馏+原adapter 4 明显下降 明显下降 adapter不兼容
FlashMotion 4 超越多步 超越多步 混合微调对齐

FlashMotion 在两种 adapter 架构上均超越了现有视频蒸馏方法和多步模型,在视觉质量和轨迹一致性两个维度同时取得最优。少步推理下加速约 6-12 倍。

消融实验要点

  • 仅用扩散目标微调:轨迹精度保持好但视频质量不足
  • 仅用对抗目标微调:视频质量好但轨迹控制退化
  • 扩散+对抗混合:两者互补达到最优平衡
  • 直接将蒸馏方法应用于带 adapter 的模型效果差,验证了"先蒸馏再对齐"策略的必要性

亮点

  • 三阶段解耦设计思路清晰:分离轨迹 adapter 训练、生成器加速和对齐三个子问题
  • 混合微调是关键创新:扩散目标管"准",对抗目标管"美"
  • FlashBench 填补了长序列轨迹可控视频生成评估的空白

局限性

  • 少步生成在复杂场景(多物体交互、遮挡等)下的鲁棒性需进一步验证
  • 对抗训练引入的模式崩溃风险需要仔细调节超参数
  • 仅在特定基础模型上验证,对不同视频扩散架构的泛化性有待确认

与相关工作的对比

  • AnimateDiff + 蒸馏:直接蒸馏带 adapter 的模型会导致 adapter 失效,FlashMotion 的分离策略解决了这一问题
  • DragAnything / MotionCtrl:多步推理速度慢,FlashMotion 在保持甚至超越其质量的前提下加速 6-12 倍
  • ADD / DMD 等视频蒸馏:不考虑可控性,直接应用到轨迹可控场景效果差

评分

  • 新颖性: ⭐⭐⭐⭐ (三阶段解耦+混合微调对齐是清晰的新贡献)
  • 实验充分度: ⭐⭐⭐⭐ (两种adapter架构+FlashBench基准+详细消融)
  • 写作质量: ⭐⭐⭐⭐ (问题定义清晰,方法动机明确)
  • 价值: ⭐⭐⭐ (可控视频生成加速的实用框架)