MotionReFit: Dynamic Motion Blending for Versatile Motion Editing¶

会议: CVPR 2025
arXiv: 2503.20724
代码: https://awfuact.github.io/motionrefit/
领域: 人体理解 / 动作编辑
关键词: 文本引导动作编辑, 动作混合, 扩散模型, 自回归, 风格迁移

一句话总结¶

提出 MotionReFit，首个通用文本引导动作编辑框架，通过 MotionCutMix 数据增强和自回归扩散模型+运动协调器，同时支持空间和时序编辑，无需额外规格说明或 LLM。

领域现状：文本引导动作编辑可实现语义编辑（如改变手部动作）和风格编辑（如愤怒风格），但现有方法受限于预收集的训练三元组数据。

现有痛点：(1) 训练三元组数量有限，泛化差；(2) 需要显式指定编辑身体部位；(3) 生成的编辑动作在空间和时序上过渡不平滑。

核心 idea：MotionCutMix 通过在线混合不同动作序列的身体部位动态生成训练三元组，结合自回归扩散模型逐段生成确保时序平滑。

MotionCutMix 产生大量训练三元组 → MotionReFit（自回归条件扩散模型）逐段生成编辑后动作 → 运动协调器（判别器）通过 classifier guidance 纠正身体部位不协调。

MotionCutMix 数据增强:
- 功能：从有限标注数据扩展出大量训练三元组
- 核心思路：对语义编辑，从大运动库随机选源动作，与带标注掩码的目标动作通过软掩码混合（SLERP 插值）生成新的编辑前-编辑后-指令三元组。对风格编辑，替换非编辑身体部位的动作。有效数据量从 \(N_S\) 扩展到 \(N_L \times N_S\)
- 设计动机：在线增强避免了预收集大量三元组的成本
自回归扩散模型:
- 功能：逐段生成编辑后动作序列
- 核心思路：用滑动窗口处理原始动作，每段保留前两帧（无噪声）作为前段连接，从第三帧开始加噪去噪。条件包括前段动作、原始动作段、CLIP 编码的编辑指令和进度指示器
- 设计动机：分段生成降低了长序列学习难度，保留帧保证时序平滑
运动协调器:
- 功能：消除身体部位不协调问题
- 核心思路：训练一个二分类判别器区分自然动作和混合动作，在去噪过程中通过 classifier guidance 引导生成更自然的动作：梯度推动生成结果远离"混合动作"的分布
- 设计动机：MotionCutMix 的混合本质会引入不自然的身体部位协调模式

标准 DDPM 损失训练扩散模型 + classifier-free guidance。构建 STANCE 数据集（三个子集：身体部位替换 13K 序列、风格迁移 750 序列、细粒度调整 16K 三元组）。

在身体部位替换和风格迁移任务上达到 SOTA： - FID、多样性、文本忠实度全面领先 - 比 TMED、FineMoGen 等方法在指令遵循度上显著更好