Deep Compositional Phase Diffusion for Long Motion Sequence Generation¶
会议: NeurIPS 2025 arXiv: 2510.14427 代码: GitHub 领域: 视频理解 / 动作生成 关键词: motion generation, diffusion model, phase representation, compositional generation, motion inbetweening
一句话总结¶
提出 Compositional Phase Diffusion 框架,在 ACT-PAE 建立的频域相位空间中用 SPDM 和 TPDM 分别处理语义对齐和过渡连续性,实现长程组合式动作序列生成,在 BABEL-TEACH 上达到 SOTA。
研究背景与动机¶
- 领域现状:当前人体动作生成模型(如 MDM、MLD)能很好地生成单一语义的变长动作片段,但在组合式长序列生成任务中(连续执行多个语义动作),片段间过渡存在明显问题。
- 现有痛点:直接拼接多个独立生成的动作片段会导致过渡边界处的运动不连续——出现突然停止、过度平滑、脚部滑动等伪影。priorMDM 等方法用额外的过渡片段平滑姿态差异,但忽略了每个片段内在的运动学特性。
- 核心矛盾:如何在保持每个动作片段的语义对齐的同时,确保相邻片段间的运动动力学连续性?
- 本文要解决什么? 同时解决语义对齐和过渡平滑,支持灵活的组合生成(任意数量、变长片段)。
- 切入角度:在运动频域(相位参数空间)而非原始姿态空间中进行 diffusion,利用相位表示天然捕捉运动的周期性和动力学信息。
- 核心idea一句话:用 Transformer-based 周期自编码器将动作编码为统一相位参数,再用语义和过渡两个专门的 diffusion 模块在相位空间中协同去噪。
方法详解¶
整体框架¶
三组件框架:(1) ACT-PAE 将变长动作编码为统一的相位参数 P=[F,A,B,S];(2) SPDM 根据文本条件去噪相位参数以保证语义对齐;(3) TPDM 利用相邻片段的相位信息去噪过渡区域的相位参数以保证连续性。多个模块可并行处理任意数量的片段。
关键设计¶
- ACT-PAE(Action-Centric Periodic Autoencoder):
- 做什么:将变长动作序列 \(\mathbf{X} \in \mathbb{R}^{N \times E}\) 编码为固定维度的相位参数 \(\mathbf{P} = [\mathbf{F}, \mathbf{A}, \mathbf{B}, \mathbf{S}] \in \mathbb{R}^Q\)
- 核心思路:基于 ACTOR 架构的 Transformer 编码器直接处理变长输入,预测频率F、振幅A、偏移B、相移S四个参数,然后通过 \(\mathbf{Q} = \mathbf{A}\sin(\mathbf{F} \cdot (T - \mathbf{S})) + \mathbf{B}\) 参数化为周期信号,再由解码器重建动作
-
设计动机:原始 DeepPhase 的 PAE 使用固定长度卷积,导致变长动作被编码为不同数量的相位码,训练目标不统一。ACT-PAE 用 Transformer 处理变长输入,输出固定维度的参数
-
SPDM(Semantic Phase Diffusion Module):
- 做什么:根据 CLIP 文本嵌入引导相位参数去噪,确保生成的动作语义与输入文本匹配
- 核心思路:将相位参数同时表示为 param-level token [F,A,B,S] 和 frame-level token(周期信号 Q),通过 self-attention Transformer 融合文本条件和两种粒度的相位信息进行去噪
-
设计动机:frame-level token 显式提供时空动作上下文,帮助 SPDM 在去噪过程中监控当前语义状态
-
TPDM(Transitional Phase Diffusion Module):
- 做什么:利用相邻片段的 clean 相位参数引导当前片段的去噪,确保过渡连续性
- 核心思路:设计 TPDMf(利用前序动作)和 TPDMb(利用后序动作)两个模块,通过 cross-attention 处理当前噪声相位和相邻 clean 相位。Phase Mixing 公式 \(\mathbf{P}^0 = r\frac{\mathbf{P}_f^0 + \mathbf{P}_b^0}{2} + (1-r)\mathbf{P}_c^0\) 融合过渡和语义信息,r 随去噪步骤从大到小变化(先建立过渡再细化语义)
- 设计动机:双向 TPDM 确保相位动力学在前向和后向方向上都对齐,bidirectional 信息传播避免长序列中的渐进误差累积
损失函数 / 训练策略¶
- ACT-PAE:L2 reconstruction loss
- SPDM 和 TPDM:标准 ε-prediction diffusion loss + DDIM sampler
实验关键数据¶
组合动作对生成(BABEL-TEACH Test)¶
| 方法 | FID↓ Overall | MMD↓ Overall |
|---|---|---|
| MDM-30 | 1.146 | 4.923 |
| TEACH | 1.041 | 4.821 |
| PCMDM | 0.837 | 5.423 |
| priorMDM | 0.839 | 5.025 |
| 本文 | 0.782 | 4.711 |
长程动作生成(3164段文本, 168分钟)¶
| 方法 | FID↓ Overall | MMD↓ Overall |
|---|---|---|
| TEACH | 1.780 | 4.984 |
| PCMDM | 0.876 | 5.156 |
| priorMDM | 1.536 | 5.060 |
| 本文 | 0.766 | 4.680 |
消融实验¶
| 配置 | FID↓ | 说明 |
|---|---|---|
| w/o TPDM | 显著上升 | 过渡质量下降 |
| w/o SPDM | 适度上升 | 语义对齐下降 |
| w/o Phase Mixing | 上升 | 缺乏渐进融合 |
| Full model | 最佳 | 所有组件互补 |
关键发现¶
- 在频域相位空间中操作比在原始姿态空间中操作产生更平滑的过渡,因为相位参数天然捕捉运动周期性
- 双向 TPDM 的渐进信息传播机制使长序列(168分钟)的连续性得以维持
- 框架具有良好的可扩展性——通过并行化模块处理,生成时间与片段数量无关
亮点与洞察¶
- 频域操作的优势:在相位参数空间而非原始关节空间做 diffusion,将运动连续性问题转化为相位连续性问题,更容易建模
- 渐进融合策略:Phase Mixing 中 r 的递减设计(先过渡后语义)符合直觉——先确保运动动力学连贯,再细化语义细节
- 统一框架:同一个架构通过模块增减即可处理组合生成、运动插值、长程生成三种任务
局限性 / 可改进方向¶
- 数据集局限:仅在 BABEL-TEACH 上评估,该数据集动作类型有限且每个片段最长 250 帧
- 相位表示的信息损失:周期正弦参数化可能无法完全表达复杂的非周期动作
- 线性混合的局限:最终片段拼接仍用线性 blend,可能在某些高频动作过渡处产生微小不连续
相关工作与启发¶
- vs priorMDM: priorMDM 独立生成语义片段再合成过渡片段,本文在去噪过程中就进行信息交换,从源头解决过渡问题
- vs TEACH: TEACH 用 SLERP 插值连接边界姿态,忽略内在运动学;本文用相位空间建模动力学
评分¶
- 新颖性: ⭐⭐⭐⭐ 相位空间 diffusion + 语义/过渡双模块设计有创意
- 实验充分度: ⭐⭐⭐⭐ 三种任务评估 + 消融 + 可视化
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,图示直观
- 价值: ⭐⭐⭐⭐ 对长程动作生成领域有显著推动