跳转至

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

日期: 2026-03-13
arXiv: 2603.13082
代码: InterEdit
领域: 图像生成 / 3D动作
关键词: multi-person motion editing, diffusion model, interaction-aware, frequency alignment, TMME

一句话总结

提出多人 3D 动作编辑任务(TMME)、InterEdit3D 数据集(5161 个源-目标-指令三元组)和 InterEdit 模型——通过语义感知计划 token 对齐 + 交互感知频率 token 对齐(DCT 能量池化),在 g2t R@1 上达 30.82%(比 TIMotion 高 +5.85%),FID 0.37(低 17%)。

研究背景与动机

  1. 领域现状: 单人文本引导动作编辑(MotionFix、MotionLab)已取得进展,但多人交互编辑完全未被探索
  2. 核心挑战: 交互语义源自相对时序和配置(同步、角色切换、接触时机),编辑一人的动作可能破坏双人协调性。与生成不同,编辑需锚定源动作并只改指令要求的部分
  3. 数据缺失: 无配对的多人动作编辑数据集和 benchmark,现有交互数据集(InterHuman、Inter-X)仅支持生成
  4. 本文切入: 定义 TMME 任务 + 构建 InterEdit3D 数据集 + 设计专用扩散模型

方法详解

整体框架

源双人动作 \(\mathbf{x}^s\) + 编辑指令 \(\mathbf{y}\) → CLIP 文本编码 + Transformer 源动作编码 → 条件扩散模型(对称交错 token 聚合)→ 目标双人动作 \(\hat{\mathbf{x}}_0\)。解码器采用 Start_X 参数化直接预测清洁动作。

InterEdit3D 数据集

  • 基于 InterHuman 构建: TMR 运动编码器提取语义嵌入 → 运动到运动检索(cosine 相似度 top-2)→ 8 位标注者手写编辑指令 + 交叉质检
  • 5161 个源-目标-文本三元组,80/10/10 划分,交互级不相交
  • 涵盖空间编辑(位置变化)、时间编辑(节奏调整)、协调编辑(角色切换)

关键设计

  1. 对称交错 Token 聚合:

    • 构建因果交错序列 \(\mathbf{x}_{cii}\)(A-B-A-B...)和角色交换对称序列 \(\mathbf{x}_{sym}\)(B-A-B-A...)
    • Concat 后送入 Transformer → 解交错恢复每人流 → 元素求和融合两种视角
    • 附加 LPA 分支(1D Conv)捕获短程时间模式
    • 设计动机: 建模角色切换和时序影响的对称性
  2. 语义感知计划 Token 对齐:

    • 16 个可学习计划 token 附加到 Transformer 第 3 块输出
    • InfoNCE 对比损失对齐到冻结运动教师的目标嵌入
    • 提供高层编辑意图指导,确保文本-动作一致性
  3. 交互感知频率 Token 对齐:

    • 计算双人均值信号 \(\bar{\mathbf{x}} = (\mathbf{x}^A + \mathbf{x}^B)/2\) 和差分信号 \(\Delta\mathbf{x} = \mathbf{x}^A - \mathbf{x}^B\)
    • DCT 变换 → 3 频带能量描述子(low/mid/high)→ 映射为频率控制 token
    • 回归损失监督目标频带能量,高频分量权重降至 0.25
    • 保持交互节奏和同步模式,防止编辑破坏时间耦合

训练策略

  • 1000 步扩散 + 余弦调度,DDIM 50 步推理,CFG scale 3.5
  • 总损失 = 去噪重建 + 计划对齐(\(\lambda_p=0.03\)) + 频率对齐(\(\lambda_f=0.01\)) + 几何/交互辅助损失

实验关键数据

主实验(TMME Benchmark)

方法 FID↓ g2t R@1↑ g2t R@3↑ g2s R@1↑ g2s R@3↑
MotionFix 2.547 3.86 7.73 2.51 6.76
MotionLab 0.550 13.26 20.69 7.90 16.43
InterGen 0.624 18.93 31.64 9.52 18.91
TIMotion 0.445 24.97 40.68 12.54 22.33
InterEdit 0.371 30.82 47.65 17.08 29.32

消融实验

配置 FID↓ g2t R@1↑ g2s R@1↑
无 plan/freq token 0.445 24.97 12.54
仅 plan token 0.367 28.72 14.52
仅 freq token 0.380 28.75 14.24
plan + freq 0.371 30.82 17.08

关键发现

  • 双 token 策略的 g2t R@1 比无 token 基线高 +5.85%,g2s R@1 高 +4.54%
  • plan 和 freq 单独使用效果接近,但组合后 g2s(源保持)显著提升——说明频率对齐主要帮助保持源一致性
  • 单人编辑方法(MotionFix)直接迁移效果极差(FID 2.55),证明多人编辑需要专用架构

亮点与洞察

  • 频域控制交互节奏: 用 DCT 频带能量描述子作为交互动态的紧凑表示很巧妙——不需要显式建模接触/同步,频率分布自然捕获这些模式
  • 对称交错解决角色歧义: 不假设 A/B 的固定角色,通过双视角融合自动适应
  • 数据构建管线可复用: TMR 嵌入+运动检索+人工标注的模式可扩展到更大规模

局限性 / 可改进方向

  • 仅支持双人,三人及以上交互未覆盖
  • InterEdit3D 依赖 InterHuman(6K 序列),数据规模仍有限
  • 200 帧窗口限制了长序列编辑(如舞蹈编排)
  • 运动质量评估依赖 InterGen 检索模型,可能有偏差

相关工作与启发

  • vs MotionFix: 单人编辑直接拼接双人特征,FID 高 7×——证明交互建模不可缺少
  • vs TIMotion: 共享对称交错架构,但缺少语义/频率对齐,g2t 低 6%
  • vs InterGen: 生成模型加源条件后效果尚可,但编辑保持性(g2s)远不如专用方法

评分

  • 新颖性: ⭐⭐⭐⭐ 首个多人动作编辑任务+数据集+方法
  • 实验充分度: ⭐⭐⭐⭐ 4 基线 + 详细消融,置信区间报告
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,数据集构建透明
  • 价值: ⭐⭐⭐⭐ 对游戏/动画/社交机器人有直接应用价值