跳转至

MotionReFit: Dynamic Motion Blending for Versatile Motion Editing

会议: CVPR 2025
arXiv: 2503.20724
代码: https://awfuact.github.io/motionrefit/
领域: 人体理解 / 动作编辑
关键词: 文本引导动作编辑, 动作混合, 扩散模型, 自回归, 风格迁移

一句话总结

提出 MotionReFit,首个通用文本引导动作编辑框架,通过 MotionCutMix 数据增强和自回归扩散模型+运动协调器,同时支持空间和时序编辑,无需额外规格说明或 LLM。

研究背景与动机

领域现状:文本引导动作编辑可实现语义编辑(如改变手部动作)和风格编辑(如愤怒风格),但现有方法受限于预收集的训练三元组数据。

现有痛点:(1) 训练三元组数量有限,泛化差;(2) 需要显式指定编辑身体部位;(3) 生成的编辑动作在空间和时序上过渡不平滑。

核心 idea:MotionCutMix 通过在线混合不同动作序列的身体部位动态生成训练三元组,结合自回归扩散模型逐段生成确保时序平滑。

方法详解

整体框架

MotionCutMix 产生大量训练三元组 → MotionReFit(自回归条件扩散模型)逐段生成编辑后动作 → 运动协调器(判别器)通过 classifier guidance 纠正身体部位不协调。

关键设计

  1. MotionCutMix 数据增强:

    • 功能:从有限标注数据扩展出大量训练三元组
    • 核心思路:对语义编辑,从大运动库随机选源动作,与带标注掩码的目标动作通过软掩码混合(SLERP 插值)生成新的编辑前-编辑后-指令三元组。对风格编辑,替换非编辑身体部位的动作。有效数据量从 \(N_S\) 扩展到 \(N_L \times N_S\)
    • 设计动机:在线增强避免了预收集大量三元组的成本
  2. 自回归扩散模型:

    • 功能:逐段生成编辑后动作序列
    • 核心思路:用滑动窗口处理原始动作,每段保留前两帧(无噪声)作为前段连接,从第三帧开始加噪去噪。条件包括前段动作、原始动作段、CLIP 编码的编辑指令和进度指示器
    • 设计动机:分段生成降低了长序列学习难度,保留帧保证时序平滑
  3. 运动协调器:

    • 功能:消除身体部位不协调问题
    • 核心思路:训练一个二分类判别器区分自然动作和混合动作,在去噪过程中通过 classifier guidance 引导生成更自然的动作:梯度推动生成结果远离"混合动作"的分布
    • 设计动机:MotionCutMix 的混合本质会引入不自然的身体部位协调模式

损失函数 / 训练策略

标准 DDPM 损失训练扩散模型 + classifier-free guidance。构建 STANCE 数据集(三个子集:身体部位替换 13K 序列、风格迁移 750 序列、细粒度调整 16K 三元组)。

实验关键数据

主实验

在身体部位替换和风格迁移任务上达到 SOTA: - FID、多样性、文本忠实度全面领先 - 比 TMED、FineMoGen 等方法在指令遵循度上显著更好

消融实验

  • MotionCutMix 显著提升泛化能力(有限数据下提升更明显)
  • 运动协调器有效减少不自然动作
  • 自回归 vs 一次性生成:自回归在长序列上明显更好

关键发现

  • MotionCutMix 不影响训练收敛速度
  • 软掩码混合比硬掩码产生更平滑的过渡
  • 进度指示器对时序编辑至关重要

亮点与洞察

  • MotionCutMix 思路类似图像领域的 CutMix 但扩展到动作域
  • 协调器作为判别器引导去噪是巧妙的设计
  • 三种编辑任务(替换、风格、微调)统一在一个框架内

局限与展望

  • SMPL-X 表示限制了手指细节
  • 风格编辑的标注数据仍然有限(750 序列)
  • 对完全不同语义的编辑(如"走路→跳舞")效果待验证

评分

  • 新颖性:8/10 — MotionCutMix 增强策略新颖
  • 技术深度:8/10 — 自回归+协调器设计完整
  • 实验充分度:8/10 — 三种任务 + 充分消融
  • 写作质量:8/10 — 结构清晰

相关论文