DisMo: Disentangled Motion Representations for Open-World Motion Transfer¶
会议: NeurIPS 2025
arXiv: 2511.23428
代码: https://compvis.github.io/DisMo (项目页)
领域: 视频生成 / 运动迁移 / 表征学习
关键词: 运动解耦, 开放世界运动迁移, flow matching, 抽象运动表征, 动作分类
一句话总结¶
DisMo 通过双流架构(运动提取器 + 帧生成器)和图像空间重建目标,从原始视频中学习与外观、姿态、类别无关的抽象运动表征,实现跨类别/跨视角的开放世界运动迁移,并在零样本动作分类上大幅超越 V-JEPA 等视频表征模型。
背景与动机¶
T2V/I2V 生成模型已能产出逼真视频,但运动和内容耦合在一起——用户无法独立控制"物体怎么动"。现有运动控制方法要么依赖光流/轨迹等底层像素级信号(与源物体结构强耦合,无法跨类别迁移),要么基于特定类别的参数化模型(如人脸关键点驱动,只适用于单一域)。两类方法在视角、外观、语义类别差异较大的场景下都严重退化。人类天生能将"运动"这一概念与外观分离理解——小孩看到人跑步就能想象虚构角色也在跑。DisMo 正是要学到这种抽象的、类别无关的运动表征。
核心问题¶
如何从原始视频中学到只编码时序动态、不编码外观/结构/身份信息的运动表征?这种表征需要满足:(1) 能在语义不相关的实体间迁移运动(如人→猿、人→卡通角色);(2) 能与任意现成视频生成器结合;(3) 不需要物体对应关系或结构一致性。
方法详解¶
整体框架¶
DisMo 由两个联合训练的组件构成:运动提取器 \(\mathcal{M}_\theta\) 和 帧生成器 \(\mathcal{F}_\psi\)。
输入:视频 \(\mathbf{X} = \{\mathbf{x}_t\}_{t=1}^T\)(经过强数据增强)→ 运动提取器处理增强后的帧序列,输出运动嵌入序列 \(\mathbf{M} = \{\mathbf{m}_t\}\)。帧生成器以源帧 \(\mathbf{x}_t\) 和运动嵌入 \(\mathbf{m}_t\) 为条件,重建未来帧 \(\mathbf{x}_{t+\Delta t}\)。训练损失仅为图像空间的 flow matching 重建目标——不需要对比损失、正则化或复杂训练设置。
运动迁移有两种使用方式: - (b) 自回归迁移:轻量级方案,直接用训好的帧生成器逐帧预测 - (c) 高质量迁移:通过 LoRAdapter 将运动嵌入注入冻结的现成视频生成器(如 LTX-Video-2B),每个时空 token 只受对应时间步的运动嵌入影响
关键设计¶
-
信息瓶颈实现解耦:运动嵌入维度有限,构成信息瓶颈;帧生成器同时接收源帧(提供外观信息)和运动嵌入(提供时序动态),因此运动嵌入被迫只编码"源帧之外的残余知识"——即从 \(\mathbf{x}_t\) 到 \(\mathbf{x}_{t+\Delta t}\) 的变化(运动)。源帧已经携带了外观、身份、姿态等信息,运动嵌入无需也无法重复编码这些。
-
强数据增强管线:借鉴自监督学习(MAE、SimCLR),对所有帧统一施加光度增强(亮度/对比度/色相/饱和度)和几何增强(裁剪/旋转/平移/剪切/宽高比变化)。统一施加保证增强不被误识为运动。这进一步迫使运动嵌入忽略外观细节,只关注高层时序动态。
-
运动提取器架构:3D ViT-B(86M 参数),以 DINOv2-B 作为帧嵌入器,加上可学习的运动查询 token \(\mathbf{Q}\),联合处理所有帧后为每个时间步输出运动嵌入。
-
LoRAdapter 接入现成视频模型:使用 conditional LoRA(rank=64)微调 LTX-Video 的 attention 和 FFN 层,运动嵌入经映射网络(2层 FFN + RMSNorm + Linear-GEGLU)后注入。时间对齐策略:从24fps视频取29帧,运动提取器处理8帧(间隔4帧),两两拼接得4个嵌入对齐 LTX 的4个时间位置。
损失函数 / 训练策略¶
唯一的训练目标是 flow matching 的 MSE 损失:
其中 \(\mathbf{z}_\tau = \tau \mathbf{x}_{t+\Delta t} + (1-\tau)\mathbf{z}_0\)。运动提取器和帧生成器端到端联合优化。帧生成器基于预训练的 DiT-XL(675M 参数)。训练 530k 步,batch size 32,AdamW。训练数据:K-710 + SSv2 + Moments in Time + OpenVid-1M(共约 280 万视频片段,4900 小时)。
训练中对运动和帧条件施加 dropout,用于稳定训练并支持后续的无条件重建评估。
实验关键数据¶
运动迁移定量对比(Table 1)¶
| 方法 | Motion Fidelity ↑ | Prompt Adherence ↑ | Temporal Consistency ↑ | Driving Similarity ↓ |
|---|---|---|---|---|
| VMC* | 0.57 | 0.26 | 0.94 | 0.59 |
| DMT† | 0.70 | 0.24 | 0.93 | 0.66 |
| MotionClone† | 0.63 | 0.27 | 0.91 | 0.59 |
| MotionDirector* | 0.70 | 0.16 | 0.92 | 0.82 |
| DisMo (Ours) | 0.75 | 0.27 | 0.95 | 0.55 |
*逐样本微调 †推理时优化。DisMo 在所有四个指标上最优,尤其不存在其他方法的"运动保真度 vs 提示遵循"的权衡问题。
人类评估(Table 2)¶
| 方法 | Realism (%) | Prompt Matching (%) | Motion Transfer (%) |
|---|---|---|---|
| DMT | 10.93 | 9.60 | 17.73 |
| MotionDirector | 10.98 | 7.47 | 25.96 |
| VMC | 20.04 | 26.13 | 16.98 |
| MotionClone | 19.91 | 19.42 | 14.62 |
| DisMo | 38.13 | 37.38 | 24.71 |
DisMo 在真实感和提示匹配上以大幅度领先(38.1% vs 第二名 20%),运动迁移质量与 MotionDirector 可比。
零样本动作分类(Table 5,kNN probe)¶
| 方法 | 架构 | ARID ↑ | Jester ↑ | SSv2 ↑ | IARD ↑ |
|---|---|---|---|---|---|
| VideoMAE | ViT-L/16 | 17.29 | 20.11 | 7.06 | 73.44 |
| VideoMAEv2 | ViT-L/16 | 32.61 | 43.83 | 16.56 | 80.25 |
| V-JEPA | ViT-L/16 | 25.16 | 30.84 | 21.11 | 82.03 |
| DisMo | DisMo-B | 57.29 | 56.66 | 22.19 | 90.74 |
在运动敏感数据集上大幅领先:ARID 上比 V-JEPA 高 +32.1 点,Jester 上高 +25.8 点。
身份解耦(Table 3,IARD 数据集)¶
| 模型 | Action Accuracy ↑ | Identity Accuracy ↓ |
|---|---|---|
| VideoMAE | 73.44 | 99.14 |
| V-JEPA | 82.03 | 96.23 |
| DisMo | 90.74 | 23.82 |
五分类随机基线为 20%——DisMo 的身份准确率接近随机(23.82%),说明运动嵌入几乎不包含身份信息。
消融实验要点¶
- 双流条件(源帧条件)是核心:Baseline(无源帧、无增强)MIR=0.47;加入源帧条件后 MIR 从 0.47 跳升至 3.07,LPIPS 从 0.47 升至 0.72。源帧承载外观信息使运动嵌入被迫只编码"变化"。
- 增强进一步提升解耦:加增强后 MIR 从 3.07 升至 5.56,LPIPS 从 0.72 升至 0.76。增强对几何变换的不变性效果尤其显著。
- 可切换视频生成骨干:LTX(Motion Fidelity 0.75, FID 88.5)→ CogVideoX-5B(0.78, FID 63.0),更强骨干直接提升生成质量而无需重训运动编码器。说明运动表征与渲染器正交。
- DisMo vs V-JEPA 解耦对比:同一重建器下,DisMo 的 MIR=5.56 vs V-JEPA 的 3.72,解耦能力显著更强。
亮点¶
- 极简损失设计:仅靠图像空间重建损失(flow matching MSE),无对比损失、无正则化、无复杂训练机制,却自然浮现高度解耦的运动表征。信息瓶颈 + 强增强 + 双流条件三者协同实现解耦。
- 运动与渲染器正交:运动表征独立于视频生成器,通过轻量 LoRAdapter 接入任意现成模型,直接享受未来更强模型的红利——从架构上解决了"方法和模型绑定"的问题。
- 跨领域泛化惊人:能把人走路的运动迁移到猿、卡通角色甚至不相关物体上,而不需要任何物体对应关系。
- 推理效率大幅领先:DisMo-LTX 仅需 30 秒/视频,而 VMC 需 10 分钟、DMT 需 7.5 分钟,快10-20倍。
- 潜空间分析深入:UMAP 聚类按动作分明、按身份无规律;PCA 可视化展示周期性运动的循环轨迹;可逆/不可逆运动在潜空间中可区分。运动合成实验证明相机运动和物体运动可组合。
局限性 / 可改进方向¶
- Flow-matching 帧生成器在复杂场景下的生成能力有限(高保真度依赖外接视频模型)
- 性能受训练数据分布和偏差的约束,对 OOD 样本的鲁棒性可能受限
- 仅验证了零样本 kNN 分类——更高阶的 linear/attentive probing 可能揭示更多表征结构信息(作者 future work)
- 运动嵌入维度固定,对非常精细的运动(如手指微动)或非常长的运动序列的表征能力未充分探索
- 运动迁移质量仍依赖目标视频模型的能力——模型生成能力的天花板即运动迁移质量的天花板
与相关工作的对比¶
- vs VMC/MotionDirector(逐样本微调方法):这些方法推理极慢(5-10 min/video),且过拟合源结构,运动保真度和提示遵循存在 trade-off。DisMo 是通用前馈模型,同时在两项指标上最优。
- vs DMT/MotionClone(无训练方法):利用预训练模型的聚合先验做运动迁移,但运动表征不显式,难以跨大跨度语义类别迁移。DisMo 的显式运动表征天然支持跨类别迁移。
- vs FOMM/MRAA/LIA(参数化方法):依赖特定类别的关键点/结构表征,只能在训练域内工作(如人脸),无法泛化到开放世界。DisMo 完全类别无关。
- vs V-JEPA(视频表征):V-JEPA 的表征严重编码外观信息(身份分类 96%),而 DisMo 几乎不包含身份信息(24%),在运动敏感任务上全面超越。
启发与关联¶
- 运动表征可复用:DisMo 的运动嵌入可直接作为下游视频理解任务的特征,启发"先学运动表征再做下游"的两阶段范式,类似 CLIP 在图文领域的角色。
- 与 FlashMotion (CVPR 2026) 互补:FlashMotion 关注轨迹级运动控制的加速推理,DisMo 关注语义级运动的抽象表征——两者可结合,用 DisMo 的运动嵌入替代轨迹信号驱动 FlashMotion 的加速生成器。
- 增强 + 信息瓶颈的解耦范式可迁移:不止运动领域——任何需要解耦"变化"和"内容"的场景(如风格迁移、表情迁移、光照变化估计)都可以借鉴这种"双流 + 瓶颈 + 强增强"的设计。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次提出纯重建目标驱动的抽象运动表征学习,信息瓶颈解耦机制设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 生成迁移定量+人类评估+解耦分析+零样本分类+消融+多骨干+潜空间分析,极为全面
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰、motivation 阐述充分,附录内容丰富详实
- 价值: ⭐⭐⭐⭐ 为开放世界运动控制提供了实用且可扩展的范式,运动表征可同时服务生成和理解两大方向