Deep Compositional Phase Diffusion for Long Motion Sequence Generation¶

会议: NeurIPS 2025 arXiv: 2510.14427 代码: GitHub 领域: 视频理解 / 动作生成 关键词: motion generation, diffusion model, phase representation, compositional generation, motion inbetweening

一句话总结¶

提出 Compositional Phase Diffusion 框架，在 ACT-PAE 建立的频域相位空间中用 SPDM 和 TPDM 分别处理语义对齐和过渡连续性，实现长程组合式动作序列生成，在 BABEL-TEACH 上达到 SOTA。

研究背景与动机¶

领域现状：当前人体动作生成模型（如 MDM、MLD）能很好地生成单一语义的变长动作片段，但在组合式长序列生成任务中（连续执行多个语义动作），片段间过渡存在明显问题。
现有痛点：直接拼接多个独立生成的动作片段会导致过渡边界处的运动不连续——出现突然停止、过度平滑、脚部滑动等伪影。priorMDM 等方法用额外的过渡片段平滑姿态差异，但忽略了每个片段内在的运动学特性。
核心矛盾：如何在保持每个动作片段的语义对齐的同时，确保相邻片段间的运动动力学连续性？
本文要解决什么？ 同时解决语义对齐和过渡平滑，支持灵活的组合生成（任意数量、变长片段）。
切入角度：在运动频域（相位参数空间）而非原始姿态空间中进行 diffusion，利用相位表示天然捕捉运动的周期性和动力学信息。
核心idea一句话：用 Transformer-based 周期自编码器将动作编码为统一相位参数，再用语义和过渡两个专门的 diffusion 模块在相位空间中协同去噪。

方法详解¶

整体框架¶

三组件框架：(1) ACT-PAE 将变长动作编码为统一的相位参数 P=[F,A,B,S]；(2) SPDM 根据文本条件去噪相位参数以保证语义对齐；(3) TPDM 利用相邻片段的相位信息去噪过渡区域的相位参数以保证连续性。多个模块可并行处理任意数量的片段。

关键设计¶

ACT-PAE（Action-Centric Periodic Autoencoder）:
做什么：将变长动作序列 \(\mathbf{X} \in \mathbb{R}^{N \times E}\) 编码为固定维度的相位参数 \(\mathbf{P} = [\mathbf{F}, \mathbf{A}, \mathbf{B}, \mathbf{S}] \in \mathbb{R}^Q\)
核心思路：基于 ACTOR 架构的 Transformer 编码器直接处理变长输入，预测频率F、振幅A、偏移B、相移S四个参数，然后通过 \(\mathbf{Q} = \mathbf{A}\sin(\mathbf{F} \cdot (T - \mathbf{S})) + \mathbf{B}\) 参数化为周期信号，再由解码器重建动作
设计动机：原始 DeepPhase 的 PAE 使用固定长度卷积，导致变长动作被编码为不同数量的相位码，训练目标不统一。ACT-PAE 用 Transformer 处理变长输入，输出固定维度的参数
SPDM（Semantic Phase Diffusion Module）:
做什么：根据 CLIP 文本嵌入引导相位参数去噪，确保生成的动作语义与输入文本匹配
核心思路：将相位参数同时表示为 param-level token [F,A,B,S] 和 frame-level token（周期信号 Q），通过 self-attention Transformer 融合文本条件和两种粒度的相位信息进行去噪
设计动机：frame-level token 显式提供时空动作上下文，帮助 SPDM 在去噪过程中监控当前语义状态
TPDM（Transitional Phase Diffusion Module）:
做什么：利用相邻片段的 clean 相位参数引导当前片段的去噪，确保过渡连续性
核心思路：设计 TPDMf（利用前序动作）和 TPDMb（利用后序动作）两个模块，通过 cross-attention 处理当前噪声相位和相邻 clean 相位。Phase Mixing 公式 \(\mathbf{P}^0 = r\frac{\mathbf{P}_f^0 + \mathbf{P}_b^0}{2} + (1-r)\mathbf{P}_c^0\) 融合过渡和语义信息，r 随去噪步骤从大到小变化（先建立过渡再细化语义）
设计动机：双向 TPDM 确保相位动力学在前向和后向方向上都对齐，bidirectional 信息传播避免长序列中的渐进误差累积

损失函数 / 训练策略¶

ACT-PAE：L2 reconstruction loss
SPDM 和 TPDM：标准 ε-prediction diffusion loss + DDIM sampler

实验关键数据¶

组合动作对生成（BABEL-TEACH Test）¶

方法	FID↓ Overall	MMD↓ Overall
MDM-30	1.146	4.923
TEACH	1.041	4.821
PCMDM	0.837	5.423
priorMDM	0.839	5.025
本文	0.782	4.711

长程动作生成（3164段文本, 168分钟）¶

方法	FID↓ Overall	MMD↓ Overall
TEACH	1.780	4.984
PCMDM	0.876	5.156
priorMDM	1.536	5.060
本文	0.766	4.680

消融实验¶

配置	FID↓	说明
w/o TPDM	显著上升	过渡质量下降
w/o SPDM	适度上升	语义对齐下降
w/o Phase Mixing	上升	缺乏渐进融合
Full model	最佳	所有组件互补

关键发现¶

在频域相位空间中操作比在原始姿态空间中操作产生更平滑的过渡，因为相位参数天然捕捉运动周期性
双向 TPDM 的渐进信息传播机制使长序列（168分钟）的连续性得以维持
框架具有良好的可扩展性——通过并行化模块处理，生成时间与片段数量无关

亮点与洞察¶

频域操作的优势：在相位参数空间而非原始关节空间做 diffusion，将运动连续性问题转化为相位连续性问题，更容易建模
渐进融合策略：Phase Mixing 中 r 的递减设计（先过渡后语义）符合直觉——先确保运动动力学连贯，再细化语义细节
统一框架：同一个架构通过模块增减即可处理组合生成、运动插值、长程生成三种任务

局限性 / 可改进方向¶

数据集局限：仅在 BABEL-TEACH 上评估，该数据集动作类型有限且每个片段最长 250 帧
相位表示的信息损失：周期正弦参数化可能无法完全表达复杂的非周期动作
线性混合的局限：最终片段拼接仍用线性 blend，可能在某些高频动作过渡处产生微小不连续

评分¶

新颖性: ⭐⭐⭐⭐ 相位空间 diffusion + 语义/过渡双模块设计有创意
实验充分度: ⭐⭐⭐⭐ 三种任务评估 + 消融 + 可视化
写作质量: ⭐⭐⭐⭐ 框架描述清晰，图示直观
价值: ⭐⭐⭐⭐ 对长程动作生成领域有显著推动