FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance¶

会议: CVPR 2026
arXiv: 2603.12146
代码: 待确认
领域: 视频生成 / 扩散模型 / 运动控制
关键词: 少步生成, 轨迹可控视频生成, 扩散蒸馏, 对抗训练, 运动控制

一句话总结¶

提出 FlashMotion 三阶段训练框架——先训轨迹 adapter、再蒸馏少步生成器、最后用扩散+对抗混合目标微调 adapter——在少步推理下实现高质量轨迹可控视频生成，并发布 FlashBench 评估基准。

背景与动机¶

轨迹可控视频生成近年取得显著进展，主流方案使用 adapter 架构沿预定义轨迹实现精确运动控制。但所有现有方法均依赖多步去噪过程（通常 25-50 步），推理时间和计算开销巨大。另一方面，虽然视频蒸馏方法可以将多步生成器蒸馏为少步版本，但直接将这些蒸馏技术应用于轨迹可控视频生成，会导致视频质量和轨迹精度同时明显下降。原因在于蒸馏过程改变了生成器的特征分布，而原本为多步生成器训练的 adapter 无法适配。

核心问题¶

如何在保持轨迹控制精度和视频质量的前提下，将轨迹可控视频生成的推理步数从数十步降至少数几步（如 4 步），从而实现实时或近实时的可控视频生成？

方法详解¶

整体框架¶

FlashMotion 采用三阶段流程：(1) 在多步视频生成器上训练轨迹 adapter，获得精确轨迹控制能力；(2) 将多步生成器蒸馏为少步版本；(3) 用混合微调策略重新对齐 adapter 与少步生成器。

关键设计¶

阶段一：多步 Adapter 训练：在完整的多步视频扩散模型上训练轨迹控制 adapter，确保 adapter 学到准确的运动控制能力。这一步与现有方法（如 DragAnything、MotionCtrl）类似。
阶段二：生成器蒸馏：利用现有视频蒸馏方法将多步生成器加速为少步版本。此阶段不涉及 adapter，仅蒸馏基础生成器。蒸馏后生成器的特征空间发生变化，导致原 adapter 失效。
阶段三：混合微调对齐：核心创新点。将 adapter 接入少步生成器后，用扩散目标（reconstruction loss）和对抗目标（adversarial loss）的混合策略微调 adapter 参数。扩散目标保持轨迹精度，对抗目标提升视频的视觉真实感和时序连贯性，两者互补。
FlashBench 基准：专为长序列轨迹可控视频生成设计的评估基准，同时衡量视频质量（FVD、FID 等）和轨迹精度（ATE、位移误差等），支持不同前景物体数量的评估。

损失函数 / 训练策略¶

混合微调阶段的总损失为扩散损失与对抗损失的加权组合。扩散部分使用标准的噪声预测 MSE 损失保持轨迹控制能力；对抗部分引入判别器对少步生成的视频帧进行真伪判断，推动生成器产生更逼真的视频。在两种 adapter 架构上（如 MotionCtrl 风格和 DragAnything 风格）均验证了该框架的通用性。

实验关键数据¶

方法	推理步数	视频质量	轨迹精度	说明
多步基线 (adapter)	25-50	高	高	速度慢
直接蒸馏+原adapter	4	明显下降	明显下降	adapter不兼容
FlashMotion	4	超越多步	超越多步	混合微调对齐

FlashMotion 在两种 adapter 架构上均超越了现有视频蒸馏方法和多步模型，在视觉质量和轨迹一致性两个维度同时取得最优。少步推理下加速约 6-12 倍。

消融实验要点¶

仅用扩散目标微调：轨迹精度保持好但视频质量不足
仅用对抗目标微调：视频质量好但轨迹控制退化
扩散+对抗混合：两者互补达到最优平衡
直接将蒸馏方法应用于带 adapter 的模型效果差，验证了"先蒸馏再对齐"策略的必要性

亮点¶

三阶段解耦设计思路清晰：分离轨迹 adapter 训练、生成器加速和对齐三个子问题
混合微调是关键创新：扩散目标管"准"，对抗目标管"美"
FlashBench 填补了长序列轨迹可控视频生成评估的空白

局限性¶

少步生成在复杂场景（多物体交互、遮挡等）下的鲁棒性需进一步验证
对抗训练引入的模式崩溃风险需要仔细调节超参数
仅在特定基础模型上验证，对不同视频扩散架构的泛化性有待确认

与相关工作的对比¶

AnimateDiff + 蒸馏：直接蒸馏带 adapter 的模型会导致 adapter 失效，FlashMotion 的分离策略解决了这一问题
DragAnything / MotionCtrl：多步推理速度慢，FlashMotion 在保持甚至超越其质量的前提下加速 6-12 倍
ADD / DMD 等视频蒸馏：不考虑可控性，直接应用到轨迹可控场景效果差

评分¶

新颖性: ⭐⭐⭐⭐ (三阶段解耦+混合微调对齐是清晰的新贡献)
实验充分度: ⭐⭐⭐⭐ (两种adapter架构+FlashBench基准+详细消融)
写作质量: ⭐⭐⭐⭐ (问题定义清晰，方法动机明确)
价值: ⭐⭐⭐ (可控视频生成加速的实用框架)