Training-free Motion Factorization for Compositional Video Generation¶

会议: CVPR 2026
arXiv: 2603.09104
代码: 待发布
领域: 扩散模型 / 视频生成 / 运动控制
关键词: 组合式视频生成, 运动分解, 结构化推理, 解耦引导, 免训练

一句话总结¶

提出一个运动分解框架，将场景中多实例的运动分解为静止、刚体运动和非刚体运动三类，通过结构化运动图推理（SMR）解决 prompt 的语义歧义，通过解耦运动引导（DMG）在扩散过程中针对性地调控三类运动的生成，无需额外训练即可在 VideoCrafter-v2.0 和 CogVideoX-2B 上显著提升运动多样性和保真度。

研究背景与动机¶

领域现状：组合式视频生成（CVG）旨在从复杂 prompt 生成多实例、多运动的场景。现有方法（LVD、VideoDirectorGPT 等）通常用 LLM 生成 bounding box 序列来引导实例运动。
现有痛点：(1) 运动语义歧义——从文本直接生成 box 序列会导致断裂的运动路径和异常尺寸变化；(2) 运动引导粗糙——统一的扩散引导无法区分不同运动类别，导致运动趋同、不自然。
核心矛盾：现有方法对所有实例的运动一视同仁，缺乏对运动类别多样性的建模。静止物体、直线运动的车辆、跳舞的人需要完全不同的生成策略。
本文目标 如何在不训练的前提下，让视频生成模型为每个实例生成符合其运动类别的多样化运动？
切入角度：将运动分解为三个基本类别——静止、刚体运动、非刚体运动，分别设计针对性的推理和引导策略。
核心 idea：运动分解 + 先规划后生成——用结构化运动图推理出每个实例的运动表示，再用解耦引导分支针对性地合成三类运动。

方法详解¶

整体框架¶

框架遵循"先规划后生成"范式。(1) 规划阶段（SMR）：将用户 prompt 转换为运动图，对每个实例推理出逐帧 bounding box 序列作为运动表示。(2) 生成阶段（DMG）：根据运动类别，通过三个专用引导分支（外观一致性 / 几何不变性 / 空间变形）分别调控注意力图来合成运动。框架是模型无关的，适配 3D U-Net（VideoCrafter）和 DiT（CogVideoX）两种架构。

关键设计¶

结构化运动推理（SMR）模块:
- 功能：将语义模糊的文本 prompt 转换为结构化运动表示，为每个实例生成运动类别标签和逐帧 bounding box 序列
- 核心思路：首先构建运动图 \(\mathcal{R} = (\mathcal{V}, \mathcal{E})\)，每个实例为节点（标注运动属性和类别标签），有向边表示实例间空间关系和动态交互。然后基于运动类别推理 box 序列——静止实例 \(\mathcal{B}_f(v_n) = \mathcal{B}_1(v_n)\) 保持不变；刚体运动实例根据估计速度 \(\vec{u}\) 和加速度 \(\vec{a}\) 更新 \(\mathcal{B}_f = \mathcal{B}_{f-1} + \vec{u} + \frac{1}{2}\vec{a}\)；非刚体运动用边界位移向量 \(\Delta_f(v_n)\) 建模非对称变形。
- 设计动机：直接从 prompt 生成 box 序列会因语义歧义产生错误运动。运动图作为中间结构化表示，使 LLM 可以分步推理——先理解实例关系和运动类别，再推导具体运动参数，显著减少歧义。
参考条件引导（静止实例）:
- 功能：抑制静止区域的帧间伪变化，保持外观一致性
- 核心思路：选择帧间特征差异最小的帧作为参考帧 \(f^* = \arg\min_f \sum_{f'} D(\varphi(\mathbf{z}_f^t), \varphi(\mathbf{z}_{f'}^t))\)。通过掩码 \(\mathcal{G}_m\) 强制所有帧只与参考帧交互，实现像素级外观对齐。掩码定义为 \(\mathcal{G}_m[x,y,f,f'](v_n) = \mathbb{1}(f'=f^* \& (x,y) \in \mathcal{B}(v_n))\)。
- 设计动机：视频扩散模型常在静态区域引入伪闪烁。锚定到稳定参考帧可在注意力层面消除不必要的跨帧变化。
几何不变性引导（刚体运动实例）:
- 功能：在刚体运动过程中保持实例的几何形状不变
- 核心思路：先用 k-means 聚类从 box 中分离前景，再通过像素投票聚合多帧粗掩码生成形状模板，将模板反投影到每帧得对齐掩码 \(\mathcal{M}_f\)。同时用位移惩罚因子 \(\Gamma[f,f'] = \exp(-\alpha \cdot \|\mathbf{C}_f - \mathbf{C}_{f'}\|_2) + 1\) 调控帧间特征交互强度——距离近的帧交互更强。最终引导掩码 \(\mathcal{G}_r = \mathcal{M} \cdot \mathcal{M}^\top \odot \Gamma\)。
- 设计动机：无几何约束时，视频模型在刚体运动中常产生形变。帧无关的形状模板确保几何一致性，位移惩罚实现平滑运动过渡。
空间变形引导（非刚体运动实例）:
- 功能：建模非刚体运动中的复杂像素级变形
- 核心思路：用最近邻搜索从扩散特征中提取感知变形场 \(\mathcal{D}_{\text{perc}}\)，用 box 角点位移的双线性插值得到 box 变形场 \(\mathcal{D}_{\text{box}}\)。通过变形惩罚因子 \(\Lambda[i,j] = \exp(-\alpha \cdot (\mathcal{D}_{\text{perc}}[i,j] - \mathcal{D}_{\text{box}}[i,j])) + 1\) 最小化两者差异，使实际变形跟随预期。最终掩码 \(\mathcal{G}_{\text{nr}} = (\mathcal{M} \cdot \mathcal{M}^\top) \odot \Lambda\)。
- 设计动机：非刚体运动中每个像素速度方向不同（如人体关节运动），需要像素级变形场而非全局平移来建模。

损失函数 / 训练策略¶

无需额外训练。对 3D U-Net 架构，通过梯度更新噪声嵌入 \(\mathbf{z}^{t-1} \leftarrow \mathbf{z}^t - \nabla\mathcal{L}\)，其中 \(\mathcal{L} = 1 - \frac{\beta}{P}\sum(\mathbf{A} \odot (\mathcal{G}_m + \mathcal{G}_r + \mathcal{G}_{nr}))\)。对 DiT 架构，直接修改注意力分数 \(\mathbf{A} = \text{Softmax}(\frac{\mathbf{Q}\mathbf{K}^\top (1 + \beta \odot (\mathcal{G}_m + \mathcal{G}_r + \mathcal{G}_{nr}))}{\sqrt{d}})\)。VideoCrafter-v2.0 用 \(\beta=10\), 引导步 1-25；CogVideoX-2B 用 \(\beta=0.15\), 引导步 1-10。

实验关键数据¶

主实验¶

在自建 CVGBench-m（1665 样本自 MSR-VTT）和 CVGBench-p（994 样本自 Panda-70M）上评估：

模型设置	Subject Consis.	Background Consis.	Temporal Flicker.	Motion Smooth.	Dynamic Degree
VideoCrafter-v2.0 (基线)	97.68%	97.28%	96.28%	98.16%	33.11%
+ A&R	97.48%	97.05%	96.43%	98.27%	38.40%
+ Ours	98.40%	98.11%	97.39%	98.63%	82.21%
CogVideoX-2B (基线)	91.33%	92.78%	95.01%	96.88%	87.80%
+ R&P	91.00%	90.85%	95.07%	96.96%	91.02%
+ Ours	98.27%	97.73%	98.25%	98.74%	96.00%

消融实验¶

引导分支消融（VideoCrafter-v2.0 基线）：

RCG	GIG	SDG	Subject Consis.	Dynamic Degree	说明
✗	✗	✗	97.48%	38.40%	仅语义引导
✓	✗	✗	98.11%	51.60%	静止引导
✗	✓	✗	98.07%	53.60%	刚体引导
✗	✗	✓	97.71%	74.85%	非刚体引导
✓	✓	✓	98.40%	82.21%	完整模型

运动推理模块消融（CogVideoX-2B 基线）：

配置	Subject Consis.	Dynamic Degree	说明
w/o SMR	93.16%	88.21%	直接文本到运动
w/ SMR (Ours)	98.27%	96.00%	运动图推理

关键发现¶

Dynamic Degree 提升最为显著：在 VideoCrafter-v2.0 上从 33.11% 提升到 82.21%（+49.1 pp），说明基线模型生成的运动过于保守，本框架有效激发了大幅运动。
非刚体引导对动态度贡献最大：单独使用 SDG 即可将 Dynamic Degree 从 38.40% 提至 74.85%（+36.45 pp）。
SMR 模块是关键：去掉 SMR 后 Subject Consistency 掉 5.11%、Dynamic Degree 掉 7.79%，证明结构化推理对消解语义歧义至关重要。
模型规模影响推理质量：LLaMA-70B 比 8B 在 Dynamic Degree 上提升 6.87%（VideoCrafter）和 1.23%（CogVideoX）。
跨架构泛化：框架在 3D U-Net 和 DiT 上均有效，验证了架构无关性。

亮点与洞察¶

运动三分类的简洁抽象：将复杂运动分解为静止/刚体/非刚体三个基本类别，每类有明确的数学建模方式（常数/运动方程/位移场），简洁而有效。这种分类思路可迁移到运动估计、视频编辑等任务。
运动图作为中间表示：将文本→运动的歧义问题转化为文本→结构化图→运动的两步推理，利用图结构编码实例间关系，是应对 LLM 运动推理不可靠的聪明策略。
注意力级调控的架构无关性：通过直接操作注意力图/分数实现运动引导，无需修改模型权重或架构，天然适配不同骨干。

局限与展望¶

无法处理罕见语义概念（如 "Dendroid"），受限于基线模型的生成能力
对情感线索（如"悲伤"表情）生成效果差，因为视频模型倾向忽略形容词/副词
仅支持平面运动（bounding box），不处理深度方向的运动和 3D 旋转
未探索相机运动的建模，所有运动都在固定视角下进行
改进方向：引入参考图像提供罕见概念先验；建模相机位姿变化；扩展到 3D bounding box

评分¶

新颖性: ⭐⭐⭐⭐ 运动三分类和运动图推理的抽象有创意，但各组件（attention guidance/LLM reasoning）相对成熟
实验充分度: ⭐⭐⭐⭐ 自建 benchmark 覆盖多种语言模式，消融详尽，但缺少与 SOTA 商业模型的对比
写作质量: ⭐⭐⭐⭐ 框架清晰，公式完整，但符号定义较多
价值: ⭐⭐⭐⭐ 免训练+架构无关的特性使其实用性强，运动分解思路有普适性