跳转至

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

会议: ICCV 2025
arXiv: 2410.10780
代码: 项目页面
领域: 运动生成/可控生成
关键词: Masked Motion Model, 关节控制, Logits优化, 可微采样, 零样本目标控制

一句话总结

MaskControl 首次将空间可控性引入生成式掩码运动模型,通过 Logits Regularizer(训练时隐式对齐)和 Logits Optimization(推理时显式优化)两个核心组件操控 token 分类器的 logits,同时实现高质量运动生成(FID 降低 77%)和高精度关节控制(平均误差 0.91cm vs 1.08cm)。

研究背景与动机

文本驱动的人体运动生成在动画、影视和 VR/AR 等领域有广泛应用。然而文本描述难以精确指定特定关节(如骨盆、手部)的空间位置,导致自然的环境交互和 3D 空间导航仍然困难。

现有方法的不足

稀疏/稠密控制的两难:部分模型擅长稀疏路径点导航(GMD、Trace and Pace),部分擅长稠密轨迹跟随(TLControl),但难以同时支持两者

精度与质量的矛盾:OmniControl 支持任意关节控制但精度不高(平均误差 3.38cm);TLControl 通过测试时优化达到高精度(1.08cm)但牺牲了生成质量(FID 0.271)

方法局限于扩散模型:现有可控运动生成方法几乎全部基于扩散模型,存在运动空间冗余、计算开销大、生成速度慢等问题

缺乏零样本泛化:现有方法无法在推理时适应任意目标函数

核心洞察:掩码运动模型(Masked Motion Model)通过训练多类别 token 分类器并从学习到的类别分布中采样来生成运动序列。本文的核心 idea 是:通过隐式和显式操控分类器的 logits,使 token 分布对齐到输入的关节控制信号,从而在不损失生成质量的前提下实现精确控制

方法详解

整体框架

MaskControl 基于生成式掩码运动模型,包含三个核心设计:

  1. Motion Tokenizer:将运动序列量化为离散 token
  2. Logits Regularizer:训练时隐式扰动 logits 对齐控制信号
  3. Logits Optimization:推理时显式优化 logits 最小化控制误差
  4. DES(可微期望采样):解决类别采样不可微的关键技术

关键设计

1. Logits Regularizer(训练阶段)

借鉴 ControlNet 将控制信号注入预训练模型的思路,首次将该设计引入掩码生成模型:

  • 架构设计:预训练掩码运动模型的可训练副本,每层通过零初始化线性层与原模型连接
  • 双条件输入:文本 \(W\) 通过注意力机制影响 token,关节控制信号 \(S\) 通过投影层直接加到 token 序列上
  • 运动一致性损失:评估生成运动与关节控制信号的对齐度: $\(L_s(e_c, s) = \frac{\sum_n \sum_j \sigma_{nj} \odot \|s_{nj} - R(D(e_c))\|}{\sum_n \sum_j \sigma_{nj}}\)$ 其中 \(\sigma_{nj}\) 是二值指示器,\(D(\cdot)\) 为 tokenizer 解码器,\(R(\cdot)\) 将局部坐标转换为全局坐标。

  • Logits 一致性损失:对所有位置(含未 mask 位置)计算负对数似然: $\(\mathcal{L}_{\text{logits}} = -\sum_{\forall i \in [1, L]} \log p(x_i | X_{\overline{M}}, W, S)\)$

  • 总损失\(\mathcal{L} = \alpha \mathcal{L}_{\text{logits}} + (1-\alpha) L_s(e_c, s)\)

2. Logits Optimization(推理阶段)

在推理时通过梯度优化进一步提升控制精度,核心是直接修改 logits 改变 token 分布:

\[l_{m+1} = l_m - \eta \nabla_{l_m} L_s(l_m, s)\]

关键优势: - 不需要预训练,可处理任意目标函数 - 在 unmasking 过程的每一步进行迭代优化 - 在最后一步可直接优化 codebook embedding:\(e_{m+1} = e_m - \eta \nabla_{e_m} L_s(e_m, s)\) - 将 \(L_s\) 替换为任意损失函数即可实现零样本目标控制

3. 可微期望采样(DES)

Logits Regularizer 和 Optimization 都需要通过类别分布采样计算梯度,但离散采样不可微。DES 包含两个技术:

  • Gumbel-Softmax 重参数化:用 Straight-Through 估计器实现可微采样: $\(p_\theta(x_k | X_{\overline{M}}, W, S) = \frac{\exp((\ell_k + g_k) / \tau)}{\sum_{j=1}^K \exp((\ell_j + g_j) / \tau)}\)$

  • Token 期望(替代 argmax):用概率加权的 codebook 向量均值替代不可微的 argmax: $\(\mathbb{E}[X_{\text{recon}}] = \sum_{k=1}^K p_\theta(x_k | X_{\overline{M}}, W, S) \cdot c_k\)$

损失函数总结

损失 作用 阶段
\(\mathcal{L}_{\text{logits}}\) token 分类一致性 训练
\(L_s\) 运动-控制信号对齐 训练+推理
\(\mathcal{L}_{\text{VQ}}\) 向量量化重建 Tokenizer

实验

主实验

在 HumanML3D 数据集上的定量比较:

方法 FID ↓ 平均误差(cm) ↓ R-Precision ↑ 轨迹误差>50cm(%) ↓ 零样本目标
GMD 0.576 14.39 0.665 9.31 -
OmniControl 0.218 3.38 0.687 3.87
MotionLCM 0.531 18.97 0.752 18.87
TLControl 0.271 1.08 0.779 0.00
MaskControl 0.061 0.98 0.809 0.00

关键发现: - FID 相比 SOTA(TLControl)降低 77%(0.271→0.061),运动质量大幅提升 - 平均控制误差降至 0.98cm,优于 TLControl 的 1.08cm - 轨迹误差和位置误差均降至 0% - 唯一支持零样本目标函数控制的方法

消融实验

组件分析结果:

配置 FID ↓ 平均误差(cm) ↓
无控制 0.095 63.18
无 Logits Regularizer 0.142 2.18
无 Logits Optimization 0.128 40.41
完整模型 0.061 0.98

关键发现: - 去除 Regularizer:控制误差尚可但 FID 最差(0.142),说明 Regularizer 对生成质量至关重要 - 去除 Optimization:FID 可接受但控制误差暴涨至 40.41cm,说明 Optimization 对精度不可或缺 - 两个组件互补:Regularizer 保障质量,Optimization 保障精度

零样本目标控制

在人-场景交互任务(头部高度约束、避障、区域内行走)上:

任务 方法 约束误差 ↓ 不成功率 ↓ FID ↓
头部高度约束 ProgMoGen 0.012 0.088 0.556
MaskControl 0.000 0.000 0.246

MaskControl 在所有三个 HSI 任务中约束误差均为 0,同时 FID 显著优于 ProgMoGen。

亮点与洞察

  1. 范式创新:首次将可控性引入掩码运动模型,打破了可控运动生成依赖扩散模型的格局
  2. 训练+推理双重优化:Regularizer 提供好的初始化,Optimization 进一步精修,两者协同
  3. DES 的巧妙设计:通过期望近似解决离散采样不可微问题,是连接 logits 空间和运动空间的桥梁
  4. 零样本泛化能力:Logits Optimization 可接受任意损失函数,无需针对新任务重训练

局限性

  1. 推理时的 Logits Optimization 需要多次梯度迭代,增加了推理时间
  2. DES 中 Gumbel-Softmax 的温度参数 \(\tau\) 需要仔细调节
  3. 实验仅在 HumanML3D 单一数据集上验证,更大规模的运动数据集上效果有待验证
  4. 未考虑物理约束(如地面接触、碰撞检测)

相关工作

  • 文本驱动运动生成:MDM、MoMask、MMM 等掩码/扩散方法
  • 可控运动生成:GMD(根关节)→ OmniControl(任意关节+ControlNet)→ TLControl(测试时优化)
  • 掩码生成模型:MaskGIT(图像)→ MoMask/MMM(运动),本文首次为其引入空间控制

评分

  • 创新性: ⭐⭐⭐⭐⭐ — 首次探索掩码运动模型的空间可控性,Logits 操控思路原创
  • 技术深度: ⭐⭐⭐⭐⭐ — DES、双阶段优化、零样本泛化等设计完整且扎实
  • 实验充分度: ⭐⭐⭐⭐ — 多任务多指标全面评估,消融充分,但仅单数据集
  • 实用价值: ⭐⭐⭐⭐ — 任意关节任意帧控制+零样本目标控制,应用前景广阔

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

会议: ICCV 2025
arXiv: 2410.10780
代码: 项目主页
领域: 运动生成/空间控制
关键词: Masked Motion Model, 关节控制, Logits优化, 可微期望采样, 零样本目标控制

一句话总结

MaskControl 首次将空间关节可控性引入生成式掩码运动模型(Masked Motion Model),通过训练时的 Logits Regularizer 隐式对齐运动 token 分布与目标关节位置,以及推理时的 Logits Optimization 显式优化预测 logits 以最小化控制误差,在保持高生成质量(FID 降低77%)的同时实现高精度关节控制(平均误差0.91cm),并支持零样本目标函数控制。

研究背景与动机

核心问题

文本驱动的人体运动生成虽具有语义丰富的优势,但文本描述无法精确指定特定关节(如骨盆、手部)的空间位置。在动画、VR/AR、机器人等应用中,精确控制关节轨迹至关重要。

现有方法的不足

现有可控运动生成方法几乎全部基于扩散模型(Diffusion Model),存在以下关键问题:

  1. 质量与控制精度难以兼顾:GMD 和 OmniControl 等方法在控制精度和生成质量之间存在明显 trade-off,FID 分数远高于纯文本生成模型
  2. 稀疏/稠密信号不兼顾:部分方法擅长稀疏路径点,部分擅长逐帧密集轨迹,难以统一
  3. 无法零样本适应新目标:扩散方法依赖预训练的控制策略,无法在推理时适应任意目标函数
  4. 计算效率低:在原始运动空间做扩散过程存在冗余,导致生成速度慢

本文洞察

掩码运动模型(如 MoMask)通过训练分类器预测被掩盖的 token,然后从学到的分类分布中采样生成运动。这种基于 logits 的生成范式天然适合引入控制信号——可以通过直接操纵分类器的 logits 来改变 token 分布,使生成的运动对齐控制信号。

方法详解

整体框架

MaskControl 包含四个核心组件:

  1. Motion Tokenizer:将运动序列编码为离散 token
  2. Logits Regularizer:训练时隐式扰动 logits 以对齐控制信号
  3. Logits Optimization:推理时显式优化 logits 以提高控制精度
  4. Differentiable Expectation Sampling (DES):解决分类采样不可微的问题

关键设计 1:Logits Regularizer(训练时控制)

架构设计:采用类似 ControlNet 的设计理念——首次将此原理应用于掩码生成模型。具体地,创建预训练掩码运动模型的可训练副本,每个 Transformer 层与原始模型的对应层通过零初始化线性层连接。副本接受两种条件:文本 \(W\)(通过注意力机制)和关节控制信号 \(S\)(通过投影层直接加到 token 序列上)。

关节控制信号\(S = [s_1, s_2, \ldots, s_F]\),其中 \(s_i \in \mathbb{R}^{j \times 3}\) 指定第 \(i\) 帧中需要控制的关节的 3D 坐标,未控制关节置零。

运动一致性损失:评估生成运动与输入控制信号之间的对齐程度:

\[L_s(e_c, s) = \frac{\sum_n \sum_j \sigma_{nj} \odot \|s_{nj} - R(D(e_c))\|}{\sum_n \sum_j \sigma_{nj}}\]

其中 \(\sigma_{nj}\) 为二值掩码指示是否有控制值,\(D(\cdot)\) 为 motion tokenizer 解码器,\(R(\cdot)\) 将局部坐标变换为全局坐标。

Logits 一致性损失:将标准掩码重建损失扩展到所有位置(包括未掩盖位置),条件化于文本 \(W\) 和关节信号 \(S\)

\[\mathcal{L}_{\text{logits}} = -\sum_{\forall i \in [1,L]} \log p(x_i | X_{\overline{M}}, W, S)\]

总损失\(\mathcal{L} = \alpha \mathcal{L}_{\text{logits}} + (1-\alpha) L_s(e_c, s)\)

关键设计 2:Logits Optimization(推理时控制)

在推理时进一步优化 logits 以增强控制精度。关键思想:在 unmasking 过程的每一步,将 Regularizer 输出的 logits 作为初始值进行梯度下降优化:

\[l_{m+1} = l_m - \eta \nabla_{l_m} L_s(l_m, s)\]

迭代 \(I\) 次后得到优化后的 logits \(l^+\),再按正常流程采样。在最后一步 unmasking 时,还可直接优化 codebook embedding:

\[e_{m+1} = e_m - \eta \nabla_{e_m} L_s(e_m, s)\]

这种设计的核心优势:\(L_s\) 可以替换为任意可微目标函数,实现零样本目标控制(如限制人物在方形区域内行走等)。

关键设计 3:Differentiable Expectation Sampling (DES)

动机:Logits Regularizer 和 Optimization 都需要对 logits 求梯度,但从分类分布中采样 token 是不可微的操作。

方案一 — Gumbel-Softmax:用 Straight-Through Gumbel-Softmax 进行可微采样:

\[p_\theta(x_k | \cdot) = \frac{\exp((\ell_k + g_k)/\tau)}{\sum_{j=1}^K \exp((\ell_j + g_j)/\tau)}\]

方案二 — Token 期望:用 codebook 向量的加权平均替代 argmax 查表,实现可微的嵌入重建:

\[\mathbb{E}[X_{recon}] = \sum_{k=1}^K p_\theta(x_k | X_{\overline{M}}, W, S) \cdot c_k\]

实验

主实验:关节控制运动生成(HumanML3D 数据集)

方法 基础模型 FID ↓ R-Precision Top-3 ↑ 平均误差(cm) ↓ 轨迹误差>50cm(%) ↓ 零样本目标
GMD Motion Diffusion 0.576 0.665 14.39 9.31 -
OmniControl Motion Diffusion 0.218 0.687 3.38 3.87
MotionLCM Latent Diffusion 0.531 0.752 18.97 18.87
TLControl Feed Forward 0.271 0.779 1.08 0.00
MaskControl Masked Model 0.061 (-77%) 0.809 0.98 0.00

关键发现: - MaskControl 在 FID 上大幅领先(0.061 vs 前 SOTA 0.218),说明掩码模型在控制场景中生成质量远优于扩散模型 - 平均误差 0.98cm(多关节)/ 0.91cm(仅骨盆),达到亚厘米级控制精度 - 唯一支持零样本目标函数控制的方法

零样本目标控制对比

任务 方法 约束误差 ↓ 失败率 ↓ FID ↓
头部高度约束 ProgMoGen 0.012 8.8% 0.556
头部高度约束 MaskControl 0.000 0.0% 0.246
方形区域内行走 ProgMoGen 0.012 - -
方形区域内行走 MaskControl 0.000 - -

MaskControl 在 HSI 任务上约束误差均为 0,且 FID 远优于 ProgMoGen,说明通过 Logits Optimization 调整 token 分布比直接约束扩散噪声更有效。

消融实验

配置 FID ↓ 平均误差(cm) ↓
无控制 0.095 63.18
仅 Logits Optimization(无 Regularizer) 0.142 2.18
仅 Logits Regularizer(无 Optimization) 0.128 40.41
完整模型 0.061 0.98

关键发现: - 移除 Regularizer 后 FID 恶化最严重(0.142),说明 Regularizer 对生成质量至关重要 - 移除 Optimization 后控制误差飙升(40.41),说明推理时优化对精度不可或缺 - 两者互补:Regularizer 保质量,Optimization 保精度

亮点与洞察

  1. 范式创新:首次将可控性引入掩码运动模型,开辟了运动控制的新技术路线,避开了扩散模型在质量-精度 trade-off 上的困境
  2. Logits 操纵 = 分布操纵:通过直接修改分类 logits 来间接调整生成分布,比在连续噪声空间做引导更直接有效
  3. DES 的通用价值:可微期望采样解决了离散 token 模型的梯度传递问题,不仅限于运动控制,对所有基于 VQ 的生成模型都有参考价值
  4. 统一推理框架:同一模型同时支持 any-joint-any-frame 控制、body-part 时间线控制和零样本目标控制

局限性

  1. 依赖运动 tokenizer 的质量——如果 VQ 编码损失关键关节信息,控制精度会受限
  2. Logits Optimization 在推理时增加了计算开销(多轮梯度下降)
  3. 实验仅在 HumanML3D 数据集上验证,未扩展到更复杂的多人交互场景

相关工作

  • 掩码运动模型:MoMask、MMM 等建立了通过 bidirectional context 解码掩盖 token 的范式,生成质量和效率已超过扩散方法
  • 扩散可控运动:GMD(仅骨盆)→ OmniControl(任意关节+ControlNet)→ TLControl(高精度但低质量),全部基于扩散
  • 零样本控制:DNO 在扩散噪声上优化,ProgMoGen 在 MDM 上加约束,但都牺牲生成质量

评分

  • 新颖性:⭐⭐⭐⭐⭐(首次将控制引入掩码运动模型,方法论创新显著)
  • 技术深度:⭐⭐⭐⭐⭐(DES、Logits Regularizer/Optimization 理论完整)
  • 实验充分度:⭐⭐⭐⭐⭐(多任务、消融、定性定量全面对比)
  • 实用价值:⭐⭐⭐⭐(支持多种控制模式,零样本泛化能力强)

相关论文