跳转至

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

会议: NeurIPS 2025
arXiv: 2511.23428
代码: https://compvis.github.io/DisMo (项目页)
领域: 视频生成 / 运动迁移 / 表征学习
关键词: 运动解耦, 开放世界运动迁移, flow matching, 抽象运动表征, 动作分类

一句话总结

DisMo 通过双流架构(运动提取器 + 帧生成器)和图像空间重建目标,从原始视频中学习与外观、姿态、类别无关的抽象运动表征,实现跨类别/跨视角的开放世界运动迁移,并在零样本动作分类上大幅超越 V-JEPA 等视频表征模型。

背景与动机

T2V/I2V 生成模型已能产出逼真视频,但运动和内容耦合在一起——用户无法独立控制"物体怎么动"。现有运动控制方法要么依赖光流/轨迹等底层像素级信号(与源物体结构强耦合,无法跨类别迁移),要么基于特定类别的参数化模型(如人脸关键点驱动,只适用于单一域)。两类方法在视角、外观、语义类别差异较大的场景下都严重退化。人类天生能将"运动"这一概念与外观分离理解——小孩看到人跑步就能想象虚构角色也在跑。DisMo 正是要学到这种抽象的、类别无关的运动表征。

核心问题

如何从原始视频中学到只编码时序动态、不编码外观/结构/身份信息的运动表征?这种表征需要满足:(1) 能在语义不相关的实体间迁移运动(如人→猿、人→卡通角色);(2) 能与任意现成视频生成器结合;(3) 不需要物体对应关系或结构一致性。

方法详解

整体框架

DisMo 由两个联合训练的组件构成:运动提取器 \(\mathcal{M}_\theta\)帧生成器 \(\mathcal{F}_\psi\)

输入:视频 \(\mathbf{X} = \{\mathbf{x}_t\}_{t=1}^T\)(经过强数据增强)→ 运动提取器处理增强后的帧序列,输出运动嵌入序列 \(\mathbf{M} = \{\mathbf{m}_t\}\)。帧生成器以源帧 \(\mathbf{x}_t\) 和运动嵌入 \(\mathbf{m}_t\) 为条件,重建未来帧 \(\mathbf{x}_{t+\Delta t}\)。训练损失仅为图像空间的 flow matching 重建目标——不需要对比损失、正则化或复杂训练设置。

运动迁移有两种使用方式: - (b) 自回归迁移:轻量级方案,直接用训好的帧生成器逐帧预测 - (c) 高质量迁移:通过 LoRAdapter 将运动嵌入注入冻结的现成视频生成器(如 LTX-Video-2B),每个时空 token 只受对应时间步的运动嵌入影响

关键设计

  1. 信息瓶颈实现解耦:运动嵌入维度有限,构成信息瓶颈;帧生成器同时接收源帧(提供外观信息)和运动嵌入(提供时序动态),因此运动嵌入被迫只编码"源帧之外的残余知识"——即从 \(\mathbf{x}_t\)\(\mathbf{x}_{t+\Delta t}\) 的变化(运动)。源帧已经携带了外观、身份、姿态等信息,运动嵌入无需也无法重复编码这些。

  2. 强数据增强管线:借鉴自监督学习(MAE、SimCLR),对所有帧统一施加光度增强(亮度/对比度/色相/饱和度)和几何增强(裁剪/旋转/平移/剪切/宽高比变化)。统一施加保证增强不被误识为运动。这进一步迫使运动嵌入忽略外观细节,只关注高层时序动态。

  3. 运动提取器架构:3D ViT-B(86M 参数),以 DINOv2-B 作为帧嵌入器,加上可学习的运动查询 token \(\mathbf{Q}\),联合处理所有帧后为每个时间步输出运动嵌入。

  4. LoRAdapter 接入现成视频模型:使用 conditional LoRA(rank=64)微调 LTX-Video 的 attention 和 FFN 层,运动嵌入经映射网络(2层 FFN + RMSNorm + Linear-GEGLU)后注入。时间对齐策略:从24fps视频取29帧,运动提取器处理8帧(间隔4帧),两两拼接得4个嵌入对齐 LTX 的4个时间位置。

损失函数 / 训练策略

唯一的训练目标是 flow matching 的 MSE 损失:

\[\mathcal{L}(\theta, \psi) = \mathbb{E}_{\mathbf{X}, \tau, \mathbf{z}_0 \sim \mathcal{N}(0,\mathbf{I}), (t,t+\Delta t)} \left\| \mathbf{v}_\psi(\mathbf{z}_\tau, \mathbf{x}_t, \mathcal{M}_\theta(\mathbf{X}, t), \tau) - \mathbf{u}(\mathbf{z}_\tau, \tau) \right\|_2^2\]

其中 \(\mathbf{z}_\tau = \tau \mathbf{x}_{t+\Delta t} + (1-\tau)\mathbf{z}_0\)。运动提取器和帧生成器端到端联合优化。帧生成器基于预训练的 DiT-XL(675M 参数)。训练 530k 步,batch size 32,AdamW。训练数据:K-710 + SSv2 + Moments in Time + OpenVid-1M(共约 280 万视频片段,4900 小时)。

训练中对运动和帧条件施加 dropout,用于稳定训练并支持后续的无条件重建评估。

实验关键数据

运动迁移定量对比(Table 1)

方法 Motion Fidelity ↑ Prompt Adherence ↑ Temporal Consistency ↑ Driving Similarity ↓
VMC* 0.57 0.26 0.94 0.59
DMT† 0.70 0.24 0.93 0.66
MotionClone† 0.63 0.27 0.91 0.59
MotionDirector* 0.70 0.16 0.92 0.82
DisMo (Ours) 0.75 0.27 0.95 0.55

*逐样本微调 †推理时优化。DisMo 在所有四个指标上最优,尤其不存在其他方法的"运动保真度 vs 提示遵循"的权衡问题。

人类评估(Table 2)

方法 Realism (%) Prompt Matching (%) Motion Transfer (%)
DMT 10.93 9.60 17.73
MotionDirector 10.98 7.47 25.96
VMC 20.04 26.13 16.98
MotionClone 19.91 19.42 14.62
DisMo 38.13 37.38 24.71

DisMo 在真实感和提示匹配上以大幅度领先(38.1% vs 第二名 20%),运动迁移质量与 MotionDirector 可比。

零样本动作分类(Table 5,kNN probe)

方法 架构 ARID ↑ Jester ↑ SSv2 ↑ IARD ↑
VideoMAE ViT-L/16 17.29 20.11 7.06 73.44
VideoMAEv2 ViT-L/16 32.61 43.83 16.56 80.25
V-JEPA ViT-L/16 25.16 30.84 21.11 82.03
DisMo DisMo-B 57.29 56.66 22.19 90.74

在运动敏感数据集上大幅领先:ARID 上比 V-JEPA 高 +32.1 点,Jester 上高 +25.8 点。

身份解耦(Table 3,IARD 数据集)

模型 Action Accuracy ↑ Identity Accuracy ↓
VideoMAE 73.44 99.14
V-JEPA 82.03 96.23
DisMo 90.74 23.82

五分类随机基线为 20%——DisMo 的身份准确率接近随机(23.82%),说明运动嵌入几乎不包含身份信息。

消融实验要点

  • 双流条件(源帧条件)是核心:Baseline(无源帧、无增强)MIR=0.47;加入源帧条件后 MIR 从 0.47 跳升至 3.07,LPIPS 从 0.47 升至 0.72。源帧承载外观信息使运动嵌入被迫只编码"变化"。
  • 增强进一步提升解耦:加增强后 MIR 从 3.07 升至 5.56,LPIPS 从 0.72 升至 0.76。增强对几何变换的不变性效果尤其显著。
  • 可切换视频生成骨干:LTX(Motion Fidelity 0.75, FID 88.5)→ CogVideoX-5B(0.78, FID 63.0),更强骨干直接提升生成质量而无需重训运动编码器。说明运动表征与渲染器正交。
  • DisMo vs V-JEPA 解耦对比:同一重建器下,DisMo 的 MIR=5.56 vs V-JEPA 的 3.72,解耦能力显著更强。

亮点

  • 极简损失设计:仅靠图像空间重建损失(flow matching MSE),无对比损失、无正则化、无复杂训练机制,却自然浮现高度解耦的运动表征。信息瓶颈 + 强增强 + 双流条件三者协同实现解耦。
  • 运动与渲染器正交:运动表征独立于视频生成器,通过轻量 LoRAdapter 接入任意现成模型,直接享受未来更强模型的红利——从架构上解决了"方法和模型绑定"的问题。
  • 跨领域泛化惊人:能把人走路的运动迁移到猿、卡通角色甚至不相关物体上,而不需要任何物体对应关系。
  • 推理效率大幅领先:DisMo-LTX 仅需 30 秒/视频,而 VMC 需 10 分钟、DMT 需 7.5 分钟,快10-20倍。
  • 潜空间分析深入:UMAP 聚类按动作分明、按身份无规律;PCA 可视化展示周期性运动的循环轨迹;可逆/不可逆运动在潜空间中可区分。运动合成实验证明相机运动和物体运动可组合。

局限性 / 可改进方向

  • Flow-matching 帧生成器在复杂场景下的生成能力有限(高保真度依赖外接视频模型)
  • 性能受训练数据分布和偏差的约束,对 OOD 样本的鲁棒性可能受限
  • 仅验证了零样本 kNN 分类——更高阶的 linear/attentive probing 可能揭示更多表征结构信息(作者 future work)
  • 运动嵌入维度固定,对非常精细的运动(如手指微动)或非常长的运动序列的表征能力未充分探索
  • 运动迁移质量仍依赖目标视频模型的能力——模型生成能力的天花板即运动迁移质量的天花板

与相关工作的对比

  • vs VMC/MotionDirector(逐样本微调方法):这些方法推理极慢(5-10 min/video),且过拟合源结构,运动保真度和提示遵循存在 trade-off。DisMo 是通用前馈模型,同时在两项指标上最优。
  • vs DMT/MotionClone(无训练方法):利用预训练模型的聚合先验做运动迁移,但运动表征不显式,难以跨大跨度语义类别迁移。DisMo 的显式运动表征天然支持跨类别迁移。
  • vs FOMM/MRAA/LIA(参数化方法):依赖特定类别的关键点/结构表征,只能在训练域内工作(如人脸),无法泛化到开放世界。DisMo 完全类别无关。
  • vs V-JEPA(视频表征):V-JEPA 的表征严重编码外观信息(身份分类 96%),而 DisMo 几乎不包含身份信息(24%),在运动敏感任务上全面超越。

启发与关联

  • 运动表征可复用:DisMo 的运动嵌入可直接作为下游视频理解任务的特征,启发"先学运动表征再做下游"的两阶段范式,类似 CLIP 在图文领域的角色。
  • 与 FlashMotion (CVPR 2026) 互补:FlashMotion 关注轨迹级运动控制的加速推理,DisMo 关注语义级运动的抽象表征——两者可结合,用 DisMo 的运动嵌入替代轨迹信号驱动 FlashMotion 的加速生成器。
  • 增强 + 信息瓶颈的解耦范式可迁移:不止运动领域——任何需要解耦"变化"和"内容"的场景(如风格迁移、表情迁移、光照变化估计)都可以借鉴这种"双流 + 瓶颈 + 强增强"的设计。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次提出纯重建目标驱动的抽象运动表征学习,信息瓶颈解耦机制设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 生成迁移定量+人类评估+解耦分析+零样本分类+消融+多骨干+潜空间分析,极为全面
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰、motivation 阐述充分,附录内容丰富详实
  • 价值: ⭐⭐⭐⭐ 为开放世界运动控制提供了实用且可扩展的范式,运动表征可同时服务生成和理解两大方向