跳转至

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

会议: CVPR 2026
arXiv: 2603.13082
代码: https://github.com/YNG916/InterEdit (有)
领域: 3D人体运动编辑
关键词: 多人运动编辑, 文本引导扩散模型, 交互感知频域对齐, 语义规划Token, 条件运动生成

一句话总结

首次定义多人3D运动编辑(TMME)任务,构建5161个源-目标-指令三元组的InterEdit3D数据集,提出基于同步无分类器引导的条件扩散模型InterEdit,通过语义感知规划Token对齐和交互感知频域Token对齐两个核心模块,在指令跟随(g2t R@1 30.82%)和源保持(g2s R@1 17.08%)上全面超越基线。

背景与动机

文本引导的3D动作编辑在单人场景已取得显著进展(如MotionFix、MotionLab),但多人交互运动编辑几乎未被探索。多人交互场景在角色动画、社交机器人、虚拟代理、人群仿真和具身智能训练数据等领域至关重要。多人运动编辑比单人难得多:(1) 交互语义涉及相对时序和空间配置,微小修改就可能破坏同步或空间一致性;(2) 需要执行"改变要求的部分,保留其余"这一约束,在交互场景中更具挑战;(3) 缺乏专门的多人运动编辑基准和配对数据。

核心问题

给定双人源运动和文本编辑指令,生成仅按指令修改相关部分、同时保持非编辑内容和时空耦合一致性的目标多人运动。现有单人编辑方法无法处理人际交互中的同步、相位对齐、空间接近/分离、角色切换和接触时序等耦合模式。

方法详解

整体框架

输入双人源运动序列(非规范化表示,每人含全局关节位置、速度、6D局部旋转、脚地接触共d_m维)和CLIP编码的文本编辑指令,通过条件扩散模型(Start_X参数化,直接预测干净运动)预测编辑后的双人目标运动。源运动经Transformer编码器得到源嵌入,与文本嵌入通过AdaLN注入去噪器。去噪器使用对称交错Token聚合建模双人时序交互。

关键设计

  1. 语义感知规划Token对齐: 在去噪器中附加16个可学习规划Token,通过自注意力为运动Token提供全局编辑引导。在Transformer第3层提取规划Token投影,使用冻结的TMR运动教师编码器提取目标运动语义嵌入作为正样本,以InfoNCE对比损失对齐。InfoNCE优于Cosine和MSE损失,更好地保持潜在空间的判别结构。
  2. 交互感知频域Token对齐: 将双人运动分解为均值信号(捕捉同步分量)和差值信号(捕捉对抗分量),沿时间轴做DCT变换,按低/中/高频带计算能量描述子(共6个),映射为6个频率控制Token参与自注意力。在第5层对Token输出做回归,以目标运动频带能量为监督。高频权重降至0.25减少噪声敏感性,训练时以4%概率随机丢弃频率Token做正则化。
  3. 同步无分类器引导 (SCFG): 训练时以10%概率同步丢弃文本和源条件,推理时以引导尺度γ=3.5合并条件/无条件预测。两分支与三分支性能相当但推理成本更低。

损失函数 / 训练策略

总损失 = 运动损失 + 0.03×Plan对齐损失 + 0.01×频率对齐损失。 运动损失包含: MSE重建 + 30×速度 + 30×脚地接触 + 10×骨骼长度 + 3×掩码距离图(接触区域) + 0.01×相对朝向。 训练配置: 1000步扩散余弦调度;DDIM 50步采样;AdamW(lr=1e-4余弦衰减);1500 epoch、batch 32、8× RTX Pro 6000 Blackwell。模型358.8M参数(85.0M可训练)。

实验关键数据

数据集 指标 InterEdit TIMotion(最强基线) 提升
InterEdit3D g2t R@1 30.82% 24.97% +5.85
InterEdit3D g2t R@3 47.65% 40.68% +6.97
InterEdit3D g2s R@1 17.08% 12.54% +4.54
InterEdit3D g2s R@3 29.32% 22.33% +6.99
InterEdit3D FID ↓ 0.3707 0.4451 -16.7%

人类评估(10人×20 prompts, Win/Tie/Lose vs TIMotion): 总体75.5/18.0/6.5, 指令遵循78.5/15.5/6.0, 交互真实感81.0/10.5/8.5

消融实验要点

  • 去掉plan+freq Token后性能最差(g2t R@1 24.97→加回后30.82, FID 0.44→0.37),两模块互补
  • 仅plan Token: g2t R@1 28.72; 仅freq Token: g2t R@1 28.75; 组合后30.82
  • Plan Token最佳层: 第3层(中间层平衡底层/高层); InfoNCE > Cosine > MSE
  • 频率Token dropout 4%最佳,过低过高均不利
  • λ_p=0.03, λ_f=0.01在合理范围内性能稳健

亮点

  • 开创性定义TMME任务并构建首个大规模多人运动编辑数据集(5161三元组, 8人标注+交叉校验)
  • 频域Token对齐设计巧妙: 均值/差值分解→DCT→频带能量描述子→可学习Token,优雅捕捉交互的节奏/同步等周期性动态
  • 规划Token作为可学习语义控制信号参与自注意力是一种可复用的条件扩散设计范式
  • 数据集构建pipeline(运动检索→滑窗→TMR编码→top-2近邻→人工标注)具有通用性

局限性 / 可改进方向

  • 作者承认: (1) 手势歧义——混淆自我鼓掌vs与他人拍手等细粒度手势; (2) 长序列空间漂移——难以在长时复杂运动中维持严格人际空间关系
  • 仅覆盖双人交互,3+人群组运动编辑未涉及
  • 数据集基于InterHuman检索构建,运动多样性受限于源数据
  • 仅支持文本控制,未结合空间约束(目标位置、轨迹sketch)等更丰富的编辑信号

与相关工作的对比

  • vs MotionFix/MotionLab(单人编辑): 将双人拼接为单序列处理,缺乏交互建模,g2t R@1仅3.86%/13.26%,远低于InterEdit的30.82%
  • vs InterGen/TIMotion(多人生成): 作为生成模型,缺乏"改什么/留什么"机制,导致全局漂移。TIMotion为最强基线,InterEdit在全部指标上超越
  • vs SimMotionEdit: 相似度约束限制编辑偏移但局限于单人

启发与关联

  • 频域Token正则化可迁移至视频生成/编辑中的时序一致性约束,或音视频同步任务
  • Plan Token + 对比学习对齐目标嵌入的范式可推广到图像/视频编辑等条件生成任务
  • 结合空间约束sketch与文本指令可实现更精确的多人运动编辑

评分

  • 新颖性: ⭐⭐⭐⭐ 首次定义TMME问题,频域Token设计新颖,但整体框架基于已有扩散范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 4基线、多维消融(模块/层/损失/权重/CFG)、人类评估、失败案例分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、动机充分、公式完整
  • 价值: ⭐⭐⭐⭐ 为多人运动编辑领域奠定数据集和方法基础,但领域相对小众
  • 新颖性: ⭐⭐⭐
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐
  • 对我的价值: ⭐⭐⭐