InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing¶
会议: CVPR 2025
arXiv: 2603.13082
代码: 待确认
领域: 运动生成 / 多人交互
关键词: 多人动作编辑, 文本引导, 扩散模型, 交互保持, DCT频率控制, 分类器自由引导
一句话总结¶
提出 InterEdit,首个文本引导的多人 3D 运动交互编辑框架,通过 Semantic-Aware Plan Token Alignment 和 Interaction-Aware Frequency Token Alignment 在扩散模型中实现语义编辑的同时保持多人之间的时空耦合关系。
研究背景与动机¶
- 文本驱动运动编辑的快速发展: 近年来基于扩散模型的单人运动编辑取得显著进展(如 MDM、MotionDiffuse),但仅限于单人场景
- 多人交互的复杂性: 多人运动中存在复杂的时空耦合——接触约束、节奏同步、空间协调等,编辑一个人的运动可能破坏整体交互关系
- 现有方法的不足: TIMotion 等多人运动生成方法可以从头生成交互运动,但无法对已有运动进行细粒度编辑
- 编辑 vs 生成的区别: 运动编辑需要在保留原有运动特征(如交互模式、节奏)的同时执行指定的文本编辑指令,比生成更有约束
- 节奏保持的挑战: 编辑后的运动需要保持与原始运动相似的节奏和频率特征,否则交互会看起来不自然
- 核心idea: 通过可学习的 Plan Token(语义对齐)和 Frequency Token(频率控制)在扩散过程中同时实现语义编辑和交互保持
方法详解¶
整体框架¶
InterEdit 基于条件扩散模型,包含三个核心模块:
- Synchronized Classifier-Free Guidance: 将两人的运动在扩散过程中同步去噪,条件和无条件去噪同时进行
- Semantic-Aware Plan Token Alignment (SAPTA): 可学习 token 对齐教师模型的语义知识
- Interaction-Aware Frequency Token Alignment (IAFTA): 基于 DCT 的频率控制 token 保持运动节奏
关键设计 1: Semantic-Aware Plan Token Alignment (SAPTA)¶
- 引入可学习的 Plan Token,附加到扩散模型的输入中
- 通过知识蒸馏将预训练教师模型(单人运动编辑模型)的语义理解能力迁移到多人编辑框架
- Plan Token 编码了「要做什么编辑」的语义信息,引导扩散过程朝正确的编辑方向进行
- 训练时通过对齐 student 和 teacher 模型的中间特征来学习
关键设计 2: Interaction-Aware Frequency Token Alignment (IAFTA)¶
- 对原始多人运动进行 DCT(离散余弦变换)分解,提取频率特征
- 将频率特征编码为可学习的 Frequency Token,注入扩散过程
- 低频分量对应整体运动趋势和节奏,高频分量对应细节动作
- 通过控制不同频段的保留程度,在编辑自由度和交互保持之间取得平衡
- 训练时使用频率 dropout(\(p_f\))进行正则化
关键设计 3: 同步扩散与交互一致性¶
- 两个人的运动在扩散过程中共享时间步和噪声调度
- 在 classifier-free guidance 中,条件分支接收文本编辑指令,无条件分支保持交互结构
- 引导强度可控:较大的引导权重更强调文本编辑,较小的权重更注重保持原有交互
实验关键数据¶
主实验¶
| 方法 | FID↓ | g2t R@1↑ | g2s R@1↑ |
|---|---|---|---|
| TIMotion | 0.4451 | 24.97% | 12.54% |
| InterEdit | 0.3707 | 30.82% | 17.08% |
| 提升 | -16.7% | +5.85pp | +4.54pp |
消融实验¶
| 配置 | FID↓ | g2t R@1↑ | 说明 |
|---|---|---|---|
| 完整 InterEdit | 0.3707 | 30.82% | 完整方法 |
| 去除 Plan Token | ~0.42 | ~27% | 语义对齐退化 |
| 去除 Frequency Token | ~0.41 | ~28% | 节奏保持退化 |
| 高频率 dropout (\(p_f\)=0.2) | ~0.39 | ~29% | 过度 dropout |
| 最优 \(p_f\)=0.05 | 0.3477 | — | 最优 FID |
| \(p_f\)=0.0 (无 dropout) | ~0.38 | — | 轻微过拟合 |
关键发现¶
- Plan Token 和 Frequency Token 都是必要组件,缺少任一都会导致明显性能下降
- 适度的频率 dropout(\(p_f\)=0.05)能给出最优 FID(0.3477),说明适度的频率信息丢弃有正则化效果
- g2t (gesture-to-text) 和 g2s (gesture-to-gesture-score) 的同步提升说明编辑后的运动既符合文本语义又保持了交互质量
- 在文本-运动检索指标上大幅超越 TIMotion,说明编辑后运动的语义更准确
亮点与洞察¶
- 首个多人运动交互编辑任务: 定义了新任务,填补了运动编辑从单人到多人的空白
- 频率域控制: DCT 频率分解是保持运动节奏的优雅工具,比直接在时域约束更自然
- 模块化设计: Plan Token 和 Frequency Token 可独立添加和移除,便于分析各自贡献
- 与教师模型的知识蒸馏: 巧妙利用单人运动编辑的成熟模型作为教师,避免从头学习语义理解
局限性¶
- 目前仅支持双人交互编辑,三人及以上场景未验证
- 依赖预训练教师模型,教师模型的质量会影响 Plan Token 的学习
- 评估依赖 FID 和检索指标,缺乏对交互物理合理性的直接度量(如碰撞/穿透检测)
- 对长时间序列的运动编辑效果未充分讨论
相关工作与启发¶
- MDM / MotionDiffuse: 单人运动扩散模型,InterEdit 在此基础上扩展到多人交互
- TIMotion: 多人运动生成方法,作为本文的主要对比基线
- 启发: DCT 频率控制思路可推广到其他需要保持时序特征的编辑任务(如音频、视频节奏编辑)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 新任务定义 + 频率控制思路新颖
- 实验充分度: ⭐⭐⭐☆ — 消融完整但评估指标可更丰富
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述到位
- 实用性: ⭐⭐⭐☆ — 应用场景明确但目前限于双人
- 综合推荐: ⭐⭐⭐⭐