DisMo: Disentangled Motion Representations for Open-World Motion Transfer¶

会议: NeurIPS 2025
arXiv: 2511.23428
代码: https://compvis.github.io/DisMo (项目页)
领域: 视频生成 / 运动迁移 / 表征学习
关键词: 运动解耦, 开放世界运动迁移, flow matching, 抽象运动表征, 动作分类

一句话总结¶

DisMo 通过双流架构（运动提取器 + 帧生成器）和图像空间重建目标，从原始视频中学习与外观、姿态、类别无关的抽象运动表征，实现跨类别/跨视角的开放世界运动迁移，并在零样本动作分类上大幅超越 V-JEPA 等视频表征模型。

背景与动机¶

T2V/I2V 生成模型已能产出逼真视频，但运动和内容耦合在一起——用户无法独立控制"物体怎么动"。现有运动控制方法要么依赖光流/轨迹等底层像素级信号（与源物体结构强耦合，无法跨类别迁移），要么基于特定类别的参数化模型（如人脸关键点驱动，只适用于单一域）。两类方法在视角、外观、语义类别差异较大的场景下都严重退化。人类天生能将"运动"这一概念与外观分离理解——小孩看到人跑步就能想象虚构角色也在跑。DisMo 正是要学到这种抽象的、类别无关的运动表征。

核心问题¶

如何从原始视频中学到只编码时序动态、不编码外观/结构/身份信息的运动表征？这种表征需要满足：(1) 能在语义不相关的实体间迁移运动（如人→猿、人→卡通角色）；(2) 能与任意现成视频生成器结合；(3) 不需要物体对应关系或结构一致性。

方法详解¶

整体框架¶

DisMo 由两个联合训练的组件构成：运动提取器 \(\mathcal{M}_\theta\) 和 帧生成器 \(\mathcal{F}_\psi\)。

输入：视频 \(\mathbf{X} = \{\mathbf{x}_t\}_{t=1}^T\)（经过强数据增强）→ 运动提取器处理增强后的帧序列，输出运动嵌入序列 \(\mathbf{M} = \{\mathbf{m}_t\}\)。帧生成器以源帧 \(\mathbf{x}_t\) 和运动嵌入 \(\mathbf{m}_t\) 为条件，重建未来帧 \(\mathbf{x}_{t+\Delta t}\)。训练损失仅为图像空间的 flow matching 重建目标——不需要对比损失、正则化或复杂训练设置。

运动迁移有两种使用方式： - (b) 自回归迁移：轻量级方案，直接用训好的帧生成器逐帧预测 - (c) 高质量迁移：通过 LoRAdapter 将运动嵌入注入冻结的现成视频生成器（如 LTX-Video-2B），每个时空 token 只受对应时间步的运动嵌入影响

关键设计¶

信息瓶颈实现解耦：运动嵌入维度有限，构成信息瓶颈；帧生成器同时接收源帧（提供外观信息）和运动嵌入（提供时序动态），因此运动嵌入被迫只编码"源帧之外的残余知识"——即从 \(\mathbf{x}_t\) 到 \(\mathbf{x}_{t+\Delta t}\) 的变化（运动）。源帧已经携带了外观、身份、姿态等信息，运动嵌入无需也无法重复编码这些。
强数据增强管线：借鉴自监督学习（MAE、SimCLR），对所有帧统一施加光度增强（亮度/对比度/色相/饱和度）和几何增强（裁剪/旋转/平移/剪切/宽高比变化）。统一施加保证增强不被误识为运动。这进一步迫使运动嵌入忽略外观细节，只关注高层时序动态。
运动提取器架构：3D ViT-B（86M 参数），以 DINOv2-B 作为帧嵌入器，加上可学习的运动查询 token \(\mathbf{Q}\)，联合处理所有帧后为每个时间步输出运动嵌入。
LoRAdapter 接入现成视频模型：使用 conditional LoRA（rank=64）微调 LTX-Video 的 attention 和 FFN 层，运动嵌入经映射网络（2层 FFN + RMSNorm + Linear-GEGLU）后注入。时间对齐策略：从24fps视频取29帧，运动提取器处理8帧（间隔4帧），两两拼接得4个嵌入对齐 LTX 的4个时间位置。

损失函数 / 训练策略¶

唯一的训练目标是 flow matching 的 MSE 损失：

\[\mathcal{L}(\theta, \psi) = \mathbb{E}_{\mathbf{X}, \tau, \mathbf{z}_0 \sim \mathcal{N}(0,\mathbf{I}), (t,t+\Delta t)} \left\| \mathbf{v}_\psi(\mathbf{z}_\tau, \mathbf{x}_t, \mathcal{M}_\theta(\mathbf{X}, t), \tau) - \mathbf{u}(\mathbf{z}_\tau, \tau) \right\|_2^2\]

其中 \(\mathbf{z}_\tau = \tau \mathbf{x}_{t+\Delta t} + (1-\tau)\mathbf{z}_0\)。运动提取器和帧生成器端到端联合优化。帧生成器基于预训练的 DiT-XL（675M 参数）。训练 530k 步，batch size 32，AdamW。训练数据：K-710 + SSv2 + Moments in Time + OpenVid-1M（共约 280 万视频片段，4900 小时）。

训练中对运动和帧条件施加 dropout，用于稳定训练并支持后续的无条件重建评估。

实验关键数据¶

运动迁移定量对比（Table 1）¶

方法	Motion Fidelity ↑	Prompt Adherence ↑	Temporal Consistency ↑	Driving Similarity ↓
VMC*	0.57	0.26	0.94	0.59
DMT†	0.70	0.24	0.93	0.66
MotionClone†	0.63	0.27	0.91	0.59
MotionDirector*	0.70	0.16	0.92	0.82
DisMo (Ours)	0.75	0.27	0.95	0.55

*逐样本微调 †推理时优化。DisMo 在所有四个指标上最优，尤其不存在其他方法的"运动保真度 vs 提示遵循"的权衡问题。

人类评估（Table 2）¶

方法	Realism (%)	Prompt Matching (%)	Motion Transfer (%)
DMT	10.93	9.60	17.73
MotionDirector	10.98	7.47	25.96
VMC	20.04	26.13	16.98
MotionClone	19.91	19.42	14.62
DisMo	38.13	37.38	24.71

DisMo 在真实感和提示匹配上以大幅度领先（38.1% vs 第二名 20%），运动迁移质量与 MotionDirector 可比。

零样本动作分类（Table 5，kNN probe）¶

方法	架构	ARID ↑	Jester ↑	SSv2 ↑	IARD ↑
VideoMAE	ViT-L/16	17.29	20.11	7.06	73.44
VideoMAEv2	ViT-L/16	32.61	43.83	16.56	80.25
V-JEPA	ViT-L/16	25.16	30.84	21.11	82.03
DisMo	DisMo-B	57.29	56.66	22.19	90.74

在运动敏感数据集上大幅领先：ARID 上比 V-JEPA 高 +32.1 点，Jester 上高 +25.8 点。

身份解耦（Table 3，IARD 数据集）¶

模型	Action Accuracy ↑	Identity Accuracy ↓
VideoMAE	73.44	99.14
V-JEPA	82.03	96.23
DisMo	90.74	23.82

五分类随机基线为 20%——DisMo 的身份准确率接近随机（23.82%），说明运动嵌入几乎不包含身份信息。

消融实验要点¶

双流条件（源帧条件）是核心：Baseline（无源帧、无增强）MIR=0.47；加入源帧条件后 MIR 从 0.47 跳升至 3.07，LPIPS 从 0.47 升至 0.72。源帧承载外观信息使运动嵌入被迫只编码"变化"。
增强进一步提升解耦：加增强后 MIR 从 3.07 升至 5.56，LPIPS 从 0.72 升至 0.76。增强对几何变换的不变性效果尤其显著。
可切换视频生成骨干：LTX（Motion Fidelity 0.75, FID 88.5）→ CogVideoX-5B（0.78, FID 63.0），更强骨干直接提升生成质量而无需重训运动编码器。说明运动表征与渲染器正交。
DisMo vs V-JEPA 解耦对比：同一重建器下，DisMo 的 MIR=5.56 vs V-JEPA 的 3.72，解耦能力显著更强。

亮点¶

极简损失设计：仅靠图像空间重建损失（flow matching MSE），无对比损失、无正则化、无复杂训练机制，却自然浮现高度解耦的运动表征。信息瓶颈 + 强增强 + 双流条件三者协同实现解耦。
运动与渲染器正交：运动表征独立于视频生成器，通过轻量 LoRAdapter 接入任意现成模型，直接享受未来更强模型的红利——从架构上解决了"方法和模型绑定"的问题。
跨领域泛化惊人：能把人走路的运动迁移到猿、卡通角色甚至不相关物体上，而不需要任何物体对应关系。
推理效率大幅领先：DisMo-LTX 仅需 30 秒/视频，而 VMC 需 10 分钟、DMT 需 7.5 分钟，快10-20倍。
潜空间分析深入：UMAP 聚类按动作分明、按身份无规律；PCA 可视化展示周期性运动的循环轨迹；可逆/不可逆运动在潜空间中可区分。运动合成实验证明相机运动和物体运动可组合。

局限性 / 可改进方向¶

Flow-matching 帧生成器在复杂场景下的生成能力有限（高保真度依赖外接视频模型）
性能受训练数据分布和偏差的约束，对 OOD 样本的鲁棒性可能受限
仅验证了零样本 kNN 分类——更高阶的 linear/attentive probing 可能揭示更多表征结构信息（作者 future work）
运动嵌入维度固定，对非常精细的运动（如手指微动）或非常长的运动序列的表征能力未充分探索
运动迁移质量仍依赖目标视频模型的能力——模型生成能力的天花板即运动迁移质量的天花板

与相关工作的对比¶

vs VMC/MotionDirector（逐样本微调方法）：这些方法推理极慢（5-10 min/video），且过拟合源结构，运动保真度和提示遵循存在 trade-off。DisMo 是通用前馈模型，同时在两项指标上最优。
vs DMT/MotionClone（无训练方法）：利用预训练模型的聚合先验做运动迁移，但运动表征不显式，难以跨大跨度语义类别迁移。DisMo 的显式运动表征天然支持跨类别迁移。
vs FOMM/MRAA/LIA（参数化方法）：依赖特定类别的关键点/结构表征，只能在训练域内工作（如人脸），无法泛化到开放世界。DisMo 完全类别无关。
vs V-JEPA（视频表征）：V-JEPA 的表征严重编码外观信息（身份分类 96%），而 DisMo 几乎不包含身份信息（24%），在运动敏感任务上全面超越。

启发与关联¶

运动表征可复用：DisMo 的运动嵌入可直接作为下游视频理解任务的特征，启发"先学运动表征再做下游"的两阶段范式，类似 CLIP 在图文领域的角色。
与 FlashMotion (CVPR 2026) 互补：FlashMotion 关注轨迹级运动控制的加速推理，DisMo 关注语义级运动的抽象表征——两者可结合，用 DisMo 的运动嵌入替代轨迹信号驱动 FlashMotion 的加速生成器。
增强 + 信息瓶颈的解耦范式可迁移：不止运动领域——任何需要解耦"变化"和"内容"的场景（如风格迁移、表情迁移、光照变化估计）都可以借鉴这种"双流 + 瓶颈 + 强增强"的设计。

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出纯重建目标驱动的抽象运动表征学习，信息瓶颈解耦机制设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 生成迁移定量+人类评估+解耦分析+零样本分类+消融+多骨干+潜空间分析，极为全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰、motivation 阐述充分，附录内容丰富详实
价值: ⭐⭐⭐⭐ 为开放世界运动控制提供了实用且可扩展的范式，运动表征可同时服务生成和理解两大方向