ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer¶

会议: CVPR 2025
arXiv: 2504.02451
代码: GitHub
领域: 视频理解
关键词: 运动迁移, 视频扩散模型, 运动解耦, 零样本生成, 多主体运动

一句话总结¶

ConMo提出了一种零样本运动迁移框架，通过将参考视频中的复合运动解耦为独立的主体运动和背景（相机）运动，再在目标视频生成时可控地重组这些运动，实现了多主体运动迁移、语义/形状变换、主体去除、相机运动模拟等多种应用，在运动保真度和文本对齐上显著超越现有方法。

研究背景与动机¶

文本到视频（T2V）生成的发展使得运动迁移成为可能，但当前方法存在两个关键限制：(1) 无法处理多主体视频，难以分别迁移各主体的独立运动；(2) 当目标主体形状与源主体差异较大时（如汽车→摩托车），运动适应困难。

核心矛盾在于现有方法使用整体运动表示（holistic motion representation），将不同主体运动和相机运动混杂在一起。这导致：在多主体场景下运动"串扰"，无法独立控制各主体；在形状变化场景下，原始主体的形状约束过强，限制了扩散模型对新语义的适应。

本文的切入角度：首先将复合运动解耦为各主体运动和背景运动，然后通过软引导（soft guidance）策略可控地重组运动，引入背景运动来"稀释"主体运动中的形状约束，为形状变化提供更大灵活性。

方法详解¶

整体框架¶

ConMo包含两个阶段：(1) 参考视频运动解耦阶段 — 在DDIM反转过程中，利用SAM2提取的主体mask，分别计算各主体和背景的帧间特征差异作为独立运动线索；(2) 运动重组+目标视频生成阶段 — 将解耦的运动线索通过Motion Guidance函数和Soft Guidance策略注入去噪过程，生成运动一致的目标视频。

关键设计¶

基于局部空间边际均值的运动解耦（Motion Disentanglement via LSMM）:
- 功能：从参考视频的DDIM反转特征中提取每个主体的独立运动表示
- 核心思路：对于主体 \(s_k\)，利用SAM2得到mask \(M_{s_k}\)，计算帧对 \((i, j)\) 在主体运动区域 \(M_{s_k}^i \cup M_{s_k}^j\) 上的局部空间边际均值（LSMM）：\(\phi(s_k, i, j, t) = \frac{1}{\sum(M_{s_k}^{i|j} \cup M_{s_k}^{j|i})} \sum f(z_t^i) \cdot (M_{s_k}^{i|j} \cup M_{s_k}^{j|i})\)
- 关键改进：通过集合差运算 \(M_{s_k}^{i|j} = M_{s_k}^i \setminus M_{s_m}^j\) 排除其他主体的干扰区域，防止多主体运动交叉污染
- 运动表示：\(\Delta_{s_k}^{(i,j)} = \phi(s_k, i, j, t) - \phi(s_k, j, i, t)\)
运动重组引导函数（Motion Guidance for Recomposition）:
- 功能：在目标视频去噪过程中，通过优化噪声潜变量使目标视频的运动特征匹配参考运动
- 核心思路：对每个主体定义引导损失 \(\mathcal{L}_{s_k} = \sum_i \sum_j \|\Delta_{s_k}^{(i,j)} - \tilde{\Delta}_{s_k}^{(i,j)}\|_2^2\)，通过梯度引导调整去噪方向
- 设计动机：每个主体的运动可独立重组、添加或移除，实现精细运动控制
软引导策略（Soft Guidance）:
- 功能：通过混合背景运动来减弱主体运动中的形状语义约束，实现更灵活的形状变换
- 核心思路：\(\Delta_{s_k^*}^{(i,j)} = \frac{\Delta_{s_k}^{(i,j)} + w_c \cdot \Delta_c^{(i,j)}}{w_c + 1}\)，其中 \(w_c\) 控制背景运动的混合强度
- 设计动机：实验发现仅用背景运动可近似相机运动，引入背景运动到主体运动中可以"稀释"原始形状结构约束，为扩散模型留出更多空间生成不同形状的目标主体

损失函数 / 训练策略¶

ConMo是零样本方法，无需训练。在推理时，通过Motion Guidance函数（Eq.5）在每个去噪步骤 \(t\) 中计算梯度并更新噪声潜变量。分别使用主体运动和背景运动的引导损失来控制各部分的运动一致性。

实验关键数据¶

主实验¶

方法	Text Alignment ↑	Motion Fidelity ↑	用户评分-运动保持 ↑	用户评分-运动质量 ↑	用户评分-文本对齐 ↑
Control-A-Video	30.13	0.7661	3.43	2.38	1.42
VMC	32.56	0.7979	2.45	2.33	4.23
MotionClone	31.00	0.8876	4.20	3.40	3.01
DMT	31.46	0.8815	4.20	3.70	4.10
ConMo	31.96	0.8931	4.40	4.11	4.30

消融实验¶

配置	Text Alignment ↑	Motion Fidelity ↑	说明
DMT (baseline)	31.46	0.8675	全局运动引导
+Eq.1 (局部LSMM)	31.55	0.8813	基础局部运动提取
+SG (软引导)	31.89	0.8795	增强形状适应
+Eq.3 (排除干扰)	31.96	0.8931	完整ConMo

关键发现¶

排除多主体交叉干扰的精细运动提取（Eq.3 vs Eq.1）显著提升运动保真度
软引导策略通过增大 \(w_c\) 可以渐进地减弱原始形状约束，增强文本对齐
仅使用背景运动生成的视频主要包含相机运动变化，验证了运动解耦的有效性
ConMo是唯一能在多主体场景中独立迁移各主体运动的方法

亮点与洞察¶

运动解耦与重组的思路：将复合运动分解为独立的主体运动+相机运动是一个优雅的范式，为精细运动控制奠定了基础
软引导策略的核心洞察：运动特征中同时编码了形状语义信息，混入背景运动可以"稀释"形状约束——这个发现对理解运动表示具有启发性
应用广泛性：统一框架支持多主体迁移、语义变换、大小编辑、位置编辑、主体去除、相机模拟六种应用
零样本：无需任何训练，即插即用
Mask排除策略：用集合差运算处理轨迹重叠的多主体，简单而有效

局限与展望¶

依赖SAM2的mask质量，复杂遮挡场景中mask不准确会影响运动解耦
软引导的 \(w_c\) 需要手动调整，缺乏自适应机制
评估数据集较小（26视频，56编辑对），大规模评估缺乏
运动解耦基于中间层特征差异，可能无法完全分离高度耦合的交互运动（如两人搏击）
生成质量受底层T2V模型限制，目前基于AnimateDiff等较老模型

各应用场景详解¶

ConMo 通过解耦-重组范式解锁了多种应用，值得展开说明：

语义/形状变换：通过调节 \(w_c\)（软引导中背景运动的权重），可以控制目标主体与原始形状的相似度。\(w_c\) 越大，原始形状约束越弱，目标主体越自由地匹配文本描述（如"car"→"motorbike"需要较大的形变空间）。
位置/大小编辑：通过平移或缩放目标 latent 中的局部 mask 区域来改变运动发生的位置和尺度。例如把直升机运动从地面平移到天空，使得语义（"fly"）和视觉内容一致。
主体去除：将特定主体的运动表示 \(\Delta_{s_k}\) 替换为背景运动 \(\Delta_c\)，相当于用背景填充该主体区域。
相机运动模拟：仅使用背景运动 \(\Delta_c\) 来引导生成，可以复现原始视频的相机运动轨迹。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出运动解耦+重组的运动迁移范式，软引导策略对形状适应的洞察深刻
实验充分度: ⭐⭐⭐⭐ 定性对比丰富，消融实验系统，但数据集规模偏小，定量指标较少
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示丰富直观，但符号系统略显复杂
价值: ⭐⭐⭐⭐ 开辟了多主体精细运动控制的方向，应用前景广，但受限于当前T2V模型的整体质量