跳转至

Deep Compositional Phase Diffusion for Long Motion Sequence Generation

会议: NeurIPS 2025 arXiv: 2510.14427 代码: GitHub 领域: 视频理解 / 动作生成 关键词: motion generation, diffusion model, phase representation, compositional generation, motion inbetweening

一句话总结

提出 Compositional Phase Diffusion 框架,在 ACT-PAE 建立的频域相位空间中用 SPDM 和 TPDM 分别处理语义对齐和过渡连续性,实现长程组合式动作序列生成,在 BABEL-TEACH 上达到 SOTA。

研究背景与动机

  1. 领域现状:当前人体动作生成模型(如 MDM、MLD)能很好地生成单一语义的变长动作片段,但在组合式长序列生成任务中(连续执行多个语义动作),片段间过渡存在明显问题。
  2. 现有痛点:直接拼接多个独立生成的动作片段会导致过渡边界处的运动不连续——出现突然停止、过度平滑、脚部滑动等伪影。priorMDM 等方法用额外的过渡片段平滑姿态差异,但忽略了每个片段内在的运动学特性。
  3. 核心矛盾:如何在保持每个动作片段的语义对齐的同时,确保相邻片段间的运动动力学连续性?
  4. 本文要解决什么? 同时解决语义对齐和过渡平滑,支持灵活的组合生成(任意数量、变长片段)。
  5. 切入角度:在运动频域(相位参数空间)而非原始姿态空间中进行 diffusion,利用相位表示天然捕捉运动的周期性和动力学信息。
  6. 核心idea一句话:用 Transformer-based 周期自编码器将动作编码为统一相位参数,再用语义和过渡两个专门的 diffusion 模块在相位空间中协同去噪。

方法详解

整体框架

三组件框架:(1) ACT-PAE 将变长动作编码为统一的相位参数 P=[F,A,B,S];(2) SPDM 根据文本条件去噪相位参数以保证语义对齐;(3) TPDM 利用相邻片段的相位信息去噪过渡区域的相位参数以保证连续性。多个模块可并行处理任意数量的片段。

关键设计

  1. ACT-PAE(Action-Centric Periodic Autoencoder):
  2. 做什么:将变长动作序列 \(\mathbf{X} \in \mathbb{R}^{N \times E}\) 编码为固定维度的相位参数 \(\mathbf{P} = [\mathbf{F}, \mathbf{A}, \mathbf{B}, \mathbf{S}] \in \mathbb{R}^Q\)
  3. 核心思路:基于 ACTOR 架构的 Transformer 编码器直接处理变长输入,预测频率F、振幅A、偏移B、相移S四个参数,然后通过 \(\mathbf{Q} = \mathbf{A}\sin(\mathbf{F} \cdot (T - \mathbf{S})) + \mathbf{B}\) 参数化为周期信号,再由解码器重建动作
  4. 设计动机:原始 DeepPhase 的 PAE 使用固定长度卷积,导致变长动作被编码为不同数量的相位码,训练目标不统一。ACT-PAE 用 Transformer 处理变长输入,输出固定维度的参数

  5. SPDM(Semantic Phase Diffusion Module):

  6. 做什么:根据 CLIP 文本嵌入引导相位参数去噪,确保生成的动作语义与输入文本匹配
  7. 核心思路:将相位参数同时表示为 param-level token [F,A,B,S] 和 frame-level token(周期信号 Q),通过 self-attention Transformer 融合文本条件和两种粒度的相位信息进行去噪
  8. 设计动机:frame-level token 显式提供时空动作上下文,帮助 SPDM 在去噪过程中监控当前语义状态

  9. TPDM(Transitional Phase Diffusion Module):

  10. 做什么:利用相邻片段的 clean 相位参数引导当前片段的去噪,确保过渡连续性
  11. 核心思路:设计 TPDMf(利用前序动作)和 TPDMb(利用后序动作)两个模块,通过 cross-attention 处理当前噪声相位和相邻 clean 相位。Phase Mixing 公式 \(\mathbf{P}^0 = r\frac{\mathbf{P}_f^0 + \mathbf{P}_b^0}{2} + (1-r)\mathbf{P}_c^0\) 融合过渡和语义信息,r 随去噪步骤从大到小变化(先建立过渡再细化语义)
  12. 设计动机:双向 TPDM 确保相位动力学在前向和后向方向上都对齐,bidirectional 信息传播避免长序列中的渐进误差累积

损失函数 / 训练策略

  • ACT-PAE:L2 reconstruction loss
  • SPDM 和 TPDM:标准 ε-prediction diffusion loss + DDIM sampler

实验关键数据

组合动作对生成(BABEL-TEACH Test)

方法 FID↓ Overall MMD↓ Overall
MDM-30 1.146 4.923
TEACH 1.041 4.821
PCMDM 0.837 5.423
priorMDM 0.839 5.025
本文 0.782 4.711

长程动作生成(3164段文本, 168分钟)

方法 FID↓ Overall MMD↓ Overall
TEACH 1.780 4.984
PCMDM 0.876 5.156
priorMDM 1.536 5.060
本文 0.766 4.680

消融实验

配置 FID↓ 说明
w/o TPDM 显著上升 过渡质量下降
w/o SPDM 适度上升 语义对齐下降
w/o Phase Mixing 上升 缺乏渐进融合
Full model 最佳 所有组件互补

关键发现

  • 在频域相位空间中操作比在原始姿态空间中操作产生更平滑的过渡,因为相位参数天然捕捉运动周期性
  • 双向 TPDM 的渐进信息传播机制使长序列(168分钟)的连续性得以维持
  • 框架具有良好的可扩展性——通过并行化模块处理,生成时间与片段数量无关

亮点与洞察

  • 频域操作的优势:在相位参数空间而非原始关节空间做 diffusion,将运动连续性问题转化为相位连续性问题,更容易建模
  • 渐进融合策略:Phase Mixing 中 r 的递减设计(先过渡后语义)符合直觉——先确保运动动力学连贯,再细化语义细节
  • 统一框架:同一个架构通过模块增减即可处理组合生成、运动插值、长程生成三种任务

局限性 / 可改进方向

  • 数据集局限:仅在 BABEL-TEACH 上评估,该数据集动作类型有限且每个片段最长 250 帧
  • 相位表示的信息损失:周期正弦参数化可能无法完全表达复杂的非周期动作
  • 线性混合的局限:最终片段拼接仍用线性 blend,可能在某些高频动作过渡处产生微小不连续

相关工作与启发

  • vs priorMDM: priorMDM 独立生成语义片段再合成过渡片段,本文在去噪过程中就进行信息交换,从源头解决过渡问题
  • vs TEACH: TEACH 用 SLERP 插值连接边界姿态,忽略内在运动学;本文用相位空间建模动力学

评分

  • 新颖性: ⭐⭐⭐⭐ 相位空间 diffusion + 语义/过渡双模块设计有创意
  • 实验充分度: ⭐⭐⭐⭐ 三种任务评估 + 消融 + 可视化
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 对长程动作生成领域有显著推动