Training-free Motion Factorization for Compositional Video Generation¶
会议: CVPR 2026
arXiv: 2603.09104
代码: 待发布
领域: 扩散模型 / 视频生成 / 运动控制
关键词: 组合式视频生成, 运动分解, 结构化推理, 解耦引导, 免训练
一句话总结¶
提出一个运动分解框架,将场景中多实例的运动分解为静止、刚体运动和非刚体运动三类,通过结构化运动图推理(SMR)解决 prompt 的语义歧义,通过解耦运动引导(DMG)在扩散过程中针对性地调控三类运动的生成,无需额外训练即可在 VideoCrafter-v2.0 和 CogVideoX-2B 上显著提升运动多样性和保真度。
研究背景与动机¶
- 领域现状:组合式视频生成(CVG)旨在从复杂 prompt 生成多实例、多运动的场景。现有方法(LVD、VideoDirectorGPT 等)通常用 LLM 生成 bounding box 序列来引导实例运动。
- 现有痛点:(1) 运动语义歧义——从文本直接生成 box 序列会导致断裂的运动路径和异常尺寸变化;(2) 运动引导粗糙——统一的扩散引导无法区分不同运动类别,导致运动趋同、不自然。
- 核心矛盾:现有方法对所有实例的运动一视同仁,缺乏对运动类别多样性的建模。静止物体、直线运动的车辆、跳舞的人需要完全不同的生成策略。
- 本文目标 如何在不训练的前提下,让视频生成模型为每个实例生成符合其运动类别的多样化运动?
- 切入角度:将运动分解为三个基本类别——静止、刚体运动、非刚体运动,分别设计针对性的推理和引导策略。
- 核心 idea:运动分解 + 先规划后生成——用结构化运动图推理出每个实例的运动表示,再用解耦引导分支针对性地合成三类运动。
方法详解¶
整体框架¶
框架遵循"先规划后生成"范式。(1) 规划阶段(SMR):将用户 prompt 转换为运动图,对每个实例推理出逐帧 bounding box 序列作为运动表示。(2) 生成阶段(DMG):根据运动类别,通过三个专用引导分支(外观一致性 / 几何不变性 / 空间变形)分别调控注意力图来合成运动。框架是模型无关的,适配 3D U-Net(VideoCrafter)和 DiT(CogVideoX)两种架构。
关键设计¶
-
结构化运动推理(SMR)模块:
- 功能:将语义模糊的文本 prompt 转换为结构化运动表示,为每个实例生成运动类别标签和逐帧 bounding box 序列
- 核心思路:首先构建运动图 \(\mathcal{R} = (\mathcal{V}, \mathcal{E})\),每个实例为节点(标注运动属性和类别标签),有向边表示实例间空间关系和动态交互。然后基于运动类别推理 box 序列——静止实例 \(\mathcal{B}_f(v_n) = \mathcal{B}_1(v_n)\) 保持不变;刚体运动实例根据估计速度 \(\vec{u}\) 和加速度 \(\vec{a}\) 更新 \(\mathcal{B}_f = \mathcal{B}_{f-1} + \vec{u} + \frac{1}{2}\vec{a}\);非刚体运动用边界位移向量 \(\Delta_f(v_n)\) 建模非对称变形。
- 设计动机:直接从 prompt 生成 box 序列会因语义歧义产生错误运动。运动图作为中间结构化表示,使 LLM 可以分步推理——先理解实例关系和运动类别,再推导具体运动参数,显著减少歧义。
-
参考条件引导(静止实例):
- 功能:抑制静止区域的帧间伪变化,保持外观一致性
- 核心思路:选择帧间特征差异最小的帧作为参考帧 \(f^* = \arg\min_f \sum_{f'} D(\varphi(\mathbf{z}_f^t), \varphi(\mathbf{z}_{f'}^t))\)。通过掩码 \(\mathcal{G}_m\) 强制所有帧只与参考帧交互,实现像素级外观对齐。掩码定义为 \(\mathcal{G}_m[x,y,f,f'](v_n) = \mathbb{1}(f'=f^* \& (x,y) \in \mathcal{B}(v_n))\)。
- 设计动机:视频扩散模型常在静态区域引入伪闪烁。锚定到稳定参考帧可在注意力层面消除不必要的跨帧变化。
-
几何不变性引导(刚体运动实例):
- 功能:在刚体运动过程中保持实例的几何形状不变
- 核心思路:先用 k-means 聚类从 box 中分离前景,再通过像素投票聚合多帧粗掩码生成形状模板,将模板反投影到每帧得对齐掩码 \(\mathcal{M}_f\)。同时用位移惩罚因子 \(\Gamma[f,f'] = \exp(-\alpha \cdot \|\mathbf{C}_f - \mathbf{C}_{f'}\|_2) + 1\) 调控帧间特征交互强度——距离近的帧交互更强。最终引导掩码 \(\mathcal{G}_r = \mathcal{M} \cdot \mathcal{M}^\top \odot \Gamma\)。
- 设计动机:无几何约束时,视频模型在刚体运动中常产生形变。帧无关的形状模板确保几何一致性,位移惩罚实现平滑运动过渡。
-
空间变形引导(非刚体运动实例):
- 功能:建模非刚体运动中的复杂像素级变形
- 核心思路:用最近邻搜索从扩散特征中提取感知变形场 \(\mathcal{D}_{\text{perc}}\),用 box 角点位移的双线性插值得到 box 变形场 \(\mathcal{D}_{\text{box}}\)。通过变形惩罚因子 \(\Lambda[i,j] = \exp(-\alpha \cdot (\mathcal{D}_{\text{perc}}[i,j] - \mathcal{D}_{\text{box}}[i,j])) + 1\) 最小化两者差异,使实际变形跟随预期。最终掩码 \(\mathcal{G}_{\text{nr}} = (\mathcal{M} \cdot \mathcal{M}^\top) \odot \Lambda\)。
- 设计动机:非刚体运动中每个像素速度方向不同(如人体关节运动),需要像素级变形场而非全局平移来建模。
损失函数 / 训练策略¶
无需额外训练。对 3D U-Net 架构,通过梯度更新噪声嵌入 \(\mathbf{z}^{t-1} \leftarrow \mathbf{z}^t - \nabla\mathcal{L}\),其中 \(\mathcal{L} = 1 - \frac{\beta}{P}\sum(\mathbf{A} \odot (\mathcal{G}_m + \mathcal{G}_r + \mathcal{G}_{nr}))\)。对 DiT 架构,直接修改注意力分数 \(\mathbf{A} = \text{Softmax}(\frac{\mathbf{Q}\mathbf{K}^\top (1 + \beta \odot (\mathcal{G}_m + \mathcal{G}_r + \mathcal{G}_{nr}))}{\sqrt{d}})\)。VideoCrafter-v2.0 用 \(\beta=10\), 引导步 1-25;CogVideoX-2B 用 \(\beta=0.15\), 引导步 1-10。
实验关键数据¶
主实验¶
在自建 CVGBench-m(1665 样本自 MSR-VTT)和 CVGBench-p(994 样本自 Panda-70M)上评估:
| 模型设置 | Subject Consis. | Background Consis. | Temporal Flicker. | Motion Smooth. | Dynamic Degree |
|---|---|---|---|---|---|
| VideoCrafter-v2.0 (基线) | 97.68% | 97.28% | 96.28% | 98.16% | 33.11% |
| + A&R | 97.48% | 97.05% | 96.43% | 98.27% | 38.40% |
| + Ours | 98.40% | 98.11% | 97.39% | 98.63% | 82.21% |
| CogVideoX-2B (基线) | 91.33% | 92.78% | 95.01% | 96.88% | 87.80% |
| + R&P | 91.00% | 90.85% | 95.07% | 96.96% | 91.02% |
| + Ours | 98.27% | 97.73% | 98.25% | 98.74% | 96.00% |
消融实验¶
引导分支消融(VideoCrafter-v2.0 基线):
| RCG | GIG | SDG | Subject Consis. | Dynamic Degree | 说明 |
|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | 97.48% | 38.40% | 仅语义引导 |
| ✓ | ✗ | ✗ | 98.11% | 51.60% | 静止引导 |
| ✗ | ✓ | ✗ | 98.07% | 53.60% | 刚体引导 |
| ✗ | ✗ | ✓ | 97.71% | 74.85% | 非刚体引导 |
| ✓ | ✓ | ✓ | 98.40% | 82.21% | 完整模型 |
运动推理模块消融(CogVideoX-2B 基线):
| 配置 | Subject Consis. | Dynamic Degree | 说明 |
|---|---|---|---|
| w/o SMR | 93.16% | 88.21% | 直接文本到运动 |
| w/ SMR (Ours) | 98.27% | 96.00% | 运动图推理 |
关键发现¶
- Dynamic Degree 提升最为显著:在 VideoCrafter-v2.0 上从 33.11% 提升到 82.21%(+49.1 pp),说明基线模型生成的运动过于保守,本框架有效激发了大幅运动。
- 非刚体引导对动态度贡献最大:单独使用 SDG 即可将 Dynamic Degree 从 38.40% 提至 74.85%(+36.45 pp)。
- SMR 模块是关键:去掉 SMR 后 Subject Consistency 掉 5.11%、Dynamic Degree 掉 7.79%,证明结构化推理对消解语义歧义至关重要。
- 模型规模影响推理质量:LLaMA-70B 比 8B 在 Dynamic Degree 上提升 6.87%(VideoCrafter)和 1.23%(CogVideoX)。
- 跨架构泛化:框架在 3D U-Net 和 DiT 上均有效,验证了架构无关性。
亮点与洞察¶
- 运动三分类的简洁抽象:将复杂运动分解为静止/刚体/非刚体三个基本类别,每类有明确的数学建模方式(常数/运动方程/位移场),简洁而有效。这种分类思路可迁移到运动估计、视频编辑等任务。
- 运动图作为中间表示:将文本→运动的歧义问题转化为文本→结构化图→运动的两步推理,利用图结构编码实例间关系,是应对 LLM 运动推理不可靠的聪明策略。
- 注意力级调控的架构无关性:通过直接操作注意力图/分数实现运动引导,无需修改模型权重或架构,天然适配不同骨干。
局限与展望¶
- 无法处理罕见语义概念(如 "Dendroid"),受限于基线模型的生成能力
- 对情感线索(如"悲伤"表情)生成效果差,因为视频模型倾向忽略形容词/副词
- 仅支持平面运动(bounding box),不处理深度方向的运动和 3D 旋转
- 未探索相机运动的建模,所有运动都在固定视角下进行
- 改进方向:引入参考图像提供罕见概念先验;建模相机位姿变化;扩展到 3D bounding box
相关工作与启发¶
- vs VideoTetris/Vico: 关注语义绑定和 token 重要性,但忽略运动类别多样性;本文互补地解决了运动问题
- vs LVD/VideoDirectorGPT: 用 LLM 生成 box 序列但统一引导,运动趋同;本文通过运动图和解耦引导显著提升多样性
- vs FreeTraj/TrailBlazer: 用稀疏运动场做引导,但不区分运动类别;本文的分类引导更精细
- vs MotionPrompting: 用鼠标拖拽提供运动信号,需要用户交互;本文完全自动化
评分¶
- 新颖性: ⭐⭐⭐⭐ 运动三分类和运动图推理的抽象有创意,但各组件(attention guidance/LLM reasoning)相对成熟
- 实验充分度: ⭐⭐⭐⭐ 自建 benchmark 覆盖多种语言模式,消融详尽,但缺少与 SOTA 商业模型的对比
- 写作质量: ⭐⭐⭐⭐ 框架清晰,公式完整,但符号定义较多
- 价值: ⭐⭐⭐⭐ 免训练+架构无关的特性使其实用性强,运动分解思路有普适性
相关论文¶
- [CVPR 2026] SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
- [CVPR 2026] SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution
- [AAAI 2026] DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation
- [CVPR 2026] Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction
- [CVPR 2026] When to Lock Attention: Training-Free KV Control in Video Diffusion