跳转至

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

会议: CVPR 2025
arXiv: 2603.13082
代码: 待确认
领域: 运动生成 / 多人交互
关键词: 多人动作编辑, 文本引导, 扩散模型, 交互保持, DCT频率控制, 分类器自由引导

一句话总结

提出 InterEdit,首个文本引导的多人 3D 运动交互编辑框架,通过 Semantic-Aware Plan Token Alignment 和 Interaction-Aware Frequency Token Alignment 在扩散模型中实现语义编辑的同时保持多人之间的时空耦合关系。

研究背景与动机

  1. 文本驱动运动编辑的快速发展: 近年来基于扩散模型的单人运动编辑取得显著进展(如 MDM、MotionDiffuse),但仅限于单人场景
  2. 多人交互的复杂性: 多人运动中存在复杂的时空耦合——接触约束、节奏同步、空间协调等,编辑一个人的运动可能破坏整体交互关系
  3. 现有方法的不足: TIMotion 等多人运动生成方法可以从头生成交互运动,但无法对已有运动进行细粒度编辑
  4. 编辑 vs 生成的区别: 运动编辑需要在保留原有运动特征(如交互模式、节奏)的同时执行指定的文本编辑指令,比生成更有约束
  5. 节奏保持的挑战: 编辑后的运动需要保持与原始运动相似的节奏和频率特征,否则交互会看起来不自然
  6. 核心idea: 通过可学习的 Plan Token(语义对齐)和 Frequency Token(频率控制)在扩散过程中同时实现语义编辑和交互保持

方法详解

整体框架

InterEdit 基于条件扩散模型,包含三个核心模块:

  1. Synchronized Classifier-Free Guidance: 将两人的运动在扩散过程中同步去噪,条件和无条件去噪同时进行
  2. Semantic-Aware Plan Token Alignment (SAPTA): 可学习 token 对齐教师模型的语义知识
  3. Interaction-Aware Frequency Token Alignment (IAFTA): 基于 DCT 的频率控制 token 保持运动节奏

关键设计 1: Semantic-Aware Plan Token Alignment (SAPTA)

  • 引入可学习的 Plan Token,附加到扩散模型的输入中
  • 通过知识蒸馏将预训练教师模型(单人运动编辑模型)的语义理解能力迁移到多人编辑框架
  • Plan Token 编码了「要做什么编辑」的语义信息,引导扩散过程朝正确的编辑方向进行
  • 训练时通过对齐 student 和 teacher 模型的中间特征来学习

关键设计 2: Interaction-Aware Frequency Token Alignment (IAFTA)

  • 对原始多人运动进行 DCT(离散余弦变换)分解,提取频率特征
  • 将频率特征编码为可学习的 Frequency Token,注入扩散过程
  • 低频分量对应整体运动趋势和节奏,高频分量对应细节动作
  • 通过控制不同频段的保留程度,在编辑自由度和交互保持之间取得平衡
  • 训练时使用频率 dropout(\(p_f\))进行正则化

关键设计 3: 同步扩散与交互一致性

  • 两个人的运动在扩散过程中共享时间步和噪声调度
  • 在 classifier-free guidance 中,条件分支接收文本编辑指令,无条件分支保持交互结构
  • 引导强度可控:较大的引导权重更强调文本编辑,较小的权重更注重保持原有交互

实验关键数据

主实验

方法 FID↓ g2t R@1↑ g2s R@1↑
TIMotion 0.4451 24.97% 12.54%
InterEdit 0.3707 30.82% 17.08%
提升 -16.7% +5.85pp +4.54pp

消融实验

配置 FID↓ g2t R@1↑ 说明
完整 InterEdit 0.3707 30.82% 完整方法
去除 Plan Token ~0.42 ~27% 语义对齐退化
去除 Frequency Token ~0.41 ~28% 节奏保持退化
高频率 dropout (\(p_f\)=0.2) ~0.39 ~29% 过度 dropout
最优 \(p_f\)=0.05 0.3477 最优 FID
\(p_f\)=0.0 (无 dropout) ~0.38 轻微过拟合

关键发现

  • Plan Token 和 Frequency Token 都是必要组件,缺少任一都会导致明显性能下降
  • 适度的频率 dropout(\(p_f\)=0.05)能给出最优 FID(0.3477),说明适度的频率信息丢弃有正则化效果
  • g2t (gesture-to-text) 和 g2s (gesture-to-gesture-score) 的同步提升说明编辑后的运动既符合文本语义又保持了交互质量
  • 在文本-运动检索指标上大幅超越 TIMotion,说明编辑后运动的语义更准确

亮点与洞察

  1. 首个多人运动交互编辑任务: 定义了新任务,填补了运动编辑从单人到多人的空白
  2. 频率域控制: DCT 频率分解是保持运动节奏的优雅工具,比直接在时域约束更自然
  3. 模块化设计: Plan Token 和 Frequency Token 可独立添加和移除,便于分析各自贡献
  4. 与教师模型的知识蒸馏: 巧妙利用单人运动编辑的成熟模型作为教师,避免从头学习语义理解

局限性

  • 目前仅支持双人交互编辑,三人及以上场景未验证
  • 依赖预训练教师模型,教师模型的质量会影响 Plan Token 的学习
  • 评估依赖 FID 和检索指标,缺乏对交互物理合理性的直接度量(如碰撞/穿透检测)
  • 对长时间序列的运动编辑效果未充分讨论

相关工作与启发

  • MDM / MotionDiffuse: 单人运动扩散模型,InterEdit 在此基础上扩展到多人交互
  • TIMotion: 多人运动生成方法,作为本文的主要对比基线
  • 启发: DCT 频率控制思路可推广到其他需要保持时序特征的编辑任务(如音频、视频节奏编辑)

评分

  • 新颖性: ⭐⭐⭐⭐ — 新任务定义 + 频率控制思路新颖
  • 实验充分度: ⭐⭐⭐☆ — 消融完整但评估指标可更丰富
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述到位
  • 实用性: ⭐⭐⭐☆ — 应用场景明确但目前限于双人
  • 综合推荐: ⭐⭐⭐⭐