FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance¶
会议: CVPR 2026
arXiv: 2603.12146
代码: 无
领域: 视频理解
关键词: 轨迹可控视频生成, 蒸馏加速, 少步推理, 对抗训练, 扩散模型
⚠️ 本笔记基于 arXiv 摘要撰写(本地缓存仅含摘要页,~4.7KB),方法和实验细节有限。
一句话总结¶
提出 FlashMotion,一个三阶段训练框架,将多步轨迹可控视频生成模型蒸馏为少步版本,通过混合扩散+对抗目标微调 adapter,在少步推理下同时保持视频质量和轨迹准确性。
研究背景与动机¶
轨迹可控视频生成近年取得了显著进展,用户可以通过预定义的运动轨迹精确控制视频中物体的运动路径。现有方法主要使用 adapter 架构(如 ControlNet 风格)注入到视频扩散模型中实现精确的运动控制。
核心矛盾:所有这些方法都依赖多步去噪过程(通常 20-50 步),导致推理时间长、计算开销大。虽然视频蒸馏方法(如 consistency distillation、adversarial distillation)可以将多步生成器压缩为少步版本,但直接将这些蒸馏方法应用于轨迹可控视频生成会导致视频质量和轨迹准确性的显著退化。
问题根源:蒸馏改变了模型的隐空间分布,原本在多步模型上训练好的轨迹 adapter 与蒸馏后的少步模型之间存在分布不匹配(distribution mismatch),导致 adapter 的控制信号无法被正确解读。
本文切入角度:设计一个三阶段训练框架,先训练 adapter、再蒸馏基础模型、最后用混合目标重新对齐 adapter 与少步模型,从根本上解决分布不匹配问题。
方法详解¶
整体框架¶
FlashMotion 采用三阶段训练流程: 1. Stage 1 — Adapter 训练:在多步视频生成器上训练轨迹控制 adapter,获得精确的轨迹控制能力 2. Stage 2 — 基础模型蒸馏:将多步视频生成器蒸馏为少步版本,加速视频生成 3. Stage 3 — Adapter 微调对齐:使用混合策略(扩散目标 + 对抗目标)微调 adapter,使其适配少步生成器
关键设计¶
-
轨迹 Adapter 训练(Stage 1):
- 功能:在原始多步视频扩散模型上训练可插拔的轨迹控制模块
- 为什么:adapter 架构允许对基础模型的运动控制进行精确注入,不影响原始模型的生成质量
- 怎么做:标准的 adapter 训练范式(如 ControlNet),输入预定义轨迹,训练 adapter 学习从轨迹到视频运动的映射
-
视频生成器蒸馏(Stage 2):
- 功能:将多步(20-50步)视频扩散模型压缩为少步(4-8步)版本
- 为什么:少步推理可大幅降低计算开销,但蒸馏后模型的隐空间分布发生变化
- 怎么做:使用现有的视频蒸馏方法(论文在两种 adapter 架构上验证了通用性)
-
混合目标 Adapter 微调(Stage 3):
- 功能:重新对齐 adapter 与蒸馏后的少步生成器
- 为什么:蒸馏改变了隐空间,Stage 1 训练的 adapter 与少步模型不兼容
- 怎么做:结合扩散目标(保持轨迹准确性)和对抗目标(提升视频质量)的混合训练策略
- 关键创新:混合目标能同时优化两个维度——扩散损失确保轨迹控制信号正确传递,对抗损失确保少步生成的视频质量
评测基准 — FlashBench¶
- 论文引入了 FlashBench,一个专门评估长序列轨迹可控视频生成的 benchmark
- 同时衡量视频质量和轨迹准确性
- 支持不同数量的前景物体
损失函数 / 训练策略¶
- Stage 3 使用混合损失:\(\mathcal{L} = \mathcal{L}_{diffusion} + \lambda \mathcal{L}_{adversarial}\)
- 扩散目标保证轨迹控制的精度
- 对抗目标保证视频的感知质量
实验关键数据¶
主实验(基于摘要描述)¶
| 对比维度 | FlashMotion | 现有蒸馏方法 | 多步模型 |
|---|---|---|---|
| 视频质量 | ✓ 最优 | 退化明显 | 良好 |
| 轨迹准确性 | ✓ 最优 | 退化明显 | 良好 |
| 推理步数 | 少步(4-8) | 少步 | 多步(20-50) |
架构通用性验证¶
| 实验设置 | 说明 |
|---|---|
| Adapter 架构 1 | FlashMotion 优于视频蒸馏 baseline |
| Adapter 架构 2 | FlashMotion 同样优于 baseline |
| 说明 | 在两种不同 adapter 架构上均验证了方法的通用性 |
关键发现¶
- 直接对蒸馏后的模型使用原始 adapter 会导致严重退化(分布不匹配问题确认)
- 混合扩散+对抗目标的微调策略能有效修复这个不匹配
- 方法在两种不同的 adapter 架构上都有效,说明方法具有通用性
- FlashMotion 不仅追平多步模型的性能,某些指标上甚至超越
亮点与洞察¶
- 精准定位了少步轨迹可控视频生成的核心瓶颈——adapter 与蒸馏模型的分布不匹配
- 三阶段解耦训练的设计优雅:先独立训好两个组件,再用混合目标对齐
- 方法设计与具体的 adapter 架构解耦,具有良好的通用性
- 引入 FlashBench 填补了轨迹可控视频生成评测的空白
局限与展望¶
- 本地缓存仅含摘要,无法获取具体的实验数据和细节
- 三阶段训练流程相对复杂,实际部署成本需评估
- 少步推理的具体步数和加速比未在摘要中明确
- 是否适用于更长视频和更复杂的多物体轨迹场景有待验证
相关工作与启发¶
- 轨迹可控视频生成:DragNUWA、MotionCtrl 等 adapter-based 方法
- 视频蒸馏:consistency distillation、adversarial diffusion distillation
- 对可控生成加速的启发:当蒸馏改变了基础模型分布时,控制模块需要重新对齐,这个洞察可推广到其他可控生成场景(布局、深度等)
评分¶
- 新颖性: ⭐⭐⭐⭐ 三阶段解耦+混合目标微调的思路新颖且实用,精准定位分布不匹配问题
- 实验充分度: ⭐⭐⭐(基于摘要判断)两种架构验证 + 新 benchmark
- 写作质量: ⭐⭐⭐ 摘要清晰、问题定义明确
- 价值: ⭐⭐⭐⭐ 轨迹可控视频生成的实际加速需求强烈,方法通用性好
相关论文¶
- [CVPR 2026] PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation
- [CVPR 2026] Lighting-grounded Video Generation with Renderer-based Agent Reasoning
- [CVPR 2026] Gloria: Consistent Character Video Generation via Content Anchors
- [CVPR 2026] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
- [CVPR 2026] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions