跳转至

Scalable Group Choreography via Variational Phase Manifold Learning

会议: ECCV 2024
arXiv: 2407.18839
代码: 无(AIOZ出品)
领域: 图像生成
关键词: 群舞生成, 相位流形, 变分自编码器, 音乐驱动舞蹈, 可扩展生成

一句话总结

本文提出 PDVAE(Phase-conditioned Dance VAE),一种基于相位参数的变分生成模型用于可扩展群舞生成——通过在频域学习舞蹈运动的相位流形(幅度、频率、偏移、相移),实现对任意数量舞者的高质量群舞生成,且内存消耗恒定不变,在AIOZ-GDance和AIST-M数据集上全面超越现有方法。

研究背景与动机

领域现状:音乐驱动舞蹈生成已有大量工作用于单人舞蹈。群舞生成需要在舞者之间保持同步性和协调性,同时生成多样化的个体动作。现有群舞方法(GDanceR、GCD)使用跨实体注意力或全局注意力等协作机制,需要同时处理所有舞者的运动。

现有痛点:(a) 可扩展性差:现有方法受限于数据集中的最大舞者数量(通常2-5人),无法扩展到更多舞者;(b) 内存爆炸:跨实体注意力等机制的内存消耗随舞者数量线性甚至二次增长,10个舞者时GCD就内存溢出;(c) 扩散模型瓶颈:扩散模型在原始数据空间操作,维度高,更难扩展。

核心矛盾:现有架构需要同时处理所有舞者的运动来保证协调性,但这导致计算/内存随人数增长不可控。需要一种方式让每个舞者可以独立生成,但仍保持群体一致性。

本文目标 设计一个群舞生成方法,(a) 可扩展到任意数量舞者;(b) 内存恒定;(c) 保持群体同步和个体多样性。

切入角度:受相位表示在运动合成中的成功启发——不同舞者在同一音乐下的运动虽然外观不同,但时序特性(节拍、周期性、时间对齐)本质相似。可以用频域相位参数来表征这种共享属性。

核心 idea:用频域相位参数(幅度A、频率F、偏移B、相移S)参数化VAE的潜空间,学习群体一致的相位流形,推理时只需一次编码音乐获得流形分布,然后无限次采样生成不同舞者。

方法详解

整体框架

PDVAE 包含三个网络: - 编码器 \(\mathcal{E}\):接收运动+音乐特征,输出后验分布 \(q_\phi(\mathbf{z}|\mathbf{x}, \mathbf{a})\) 的参数 - 先验网络 \(\mathcal{P}\):仅接收音乐特征,学习条件先验 \(p_\theta(\mathbf{z}|\mathbf{a})\) - 解码器 \(\mathcal{D}\):从采样的潜在相位曲线+音乐特征重建运动序列

训练时用编码器+解码器;推理时只用先验网络+解码器,对每个新舞者从先验分布采样一次相位参数即可。

关键设计

  1. 变分相位流形(核心创新):

    • 功能:用频域相位参数替代传统VAE的高斯潜向量,使潜空间具有时序结构
    • 核心思路:对编码器输出的潜在曲线 \(\mathbf{L} \in \mathbb{R}^{D \times T}\) 做FFT,计算功率谱,然后提取四个相位参数的分布均值:
      • 幅度:\(\mu_i^A = \sqrt{\frac{2}{T} \sum_j \mathbf{p}_{i,j}}\)
      • 频率:\(\mu_i^F = \frac{\sum_j \mathbf{f}_j \cdot \mathbf{p}_{i,j}}{\sum_j \mathbf{p}_{i,j}}\)(功率谱加权平均频率)
      • 偏移:\(\mu_i^B = \frac{\mathbf{c}_{i,0}}{T}\)(直流分量)
      • 相移:\(\mu_i^S = \arctan(s_y, s_x)\)(FC层预测+双arctan激活)
    • 只对幅度A和相移S做变分采样(\(\sigma^A, \sigma^S\)由MLP预测),频率F和偏移B设为确定性(否则群舞不协调)
    • 采样后重建参数化潜在曲线:\(\hat{\mathbf{L}} = \mathbf{A} \cdot \sin(2\pi(\mathbf{F} \cdot \mathcal{T} - \mathbf{S})) + \mathbf{B}\)
    • 设计动机:传统VAE的单个高斯向量"压缩掉"了时间维度信息,无法表示运动的时序动态。相位参数天然捕获运动的时序特征(周期性、节拍对齐、起止时刻),且不同舞者共享频率和偏移保证群体节拍一致
  2. 群组一致性损失 \(\mathcal{L}_{csc}\):

    • 功能:约束同一群组内不同舞者编码到相同的相位流形
    • 核心思路:\(\mathcal{L}_{csc} = D_{KL}(q_\phi(\mathbf{z}|\mathbf{x}^m, \mathbf{a}) \| q_\phi(\mathbf{z}|\mathbf{x}^n, \mathbf{a})) + \|\mathbf{P}^m - \mathbf{P}^n\|_2^2\)
    • 其中 \(\mathbf{P}_{2i-1} = \mathbf{A}_i \sin(2\pi \cdot \mathbf{S}_i)\)\(\mathbf{P}_{2i} = \mathbf{A}_i \cos(2\pi \cdot \mathbf{S}_i)\) 是相位流形特征
    • 设计动机:CVAE目标对每个舞者独立计算,无法捕获舞者间关联。该损失确保所有舞者映射到同一个统一流形
  3. Transformer架构 + Siren激活:

    • 编码器:Transformer解码器架构,用交叉注意力学习运动-音乐关系
    • 解码器:Transformer解码器,将参数化潜在曲线(query)与音乐特征(key/value)做交叉注意力
    • 先验网络:Transformer编码器,自注意力捕获全局音乐上下文
    • 使用Siren(正弦)激活函数更好地建模相位特征的周期性

损失函数

\(\mathcal{L} = \mathcal{L}_{rec} + \lambda_{KL} \mathcal{L}_{KL} + \lambda_{csc} \mathcal{L}_{csc}\)

\(\lambda_{KL} = 5 \times 10^{-4}\)\(\lambda_{csc} = 10^{-4}\)。重建用smooth-L1损失。

实验关键数据

主实验

数据集 方法 FID↓ MMC↑ GenDiv↑ PFC↓ GMR↓ GMC↑ TIF↓
AIOZ-GDance FACT 56.20 0.222 8.64 3.52 101.52 62.68 0.321
AIOZ-GDance EDGE 31.40 0.264 9.57 2.63 63.35 61.72 0.356
AIOZ-GDance GCD 31.16 0.261 10.87 2.53 31.47 80.97 0.167
AIOZ-GDance PDVAE 31.01 0.271 10.98 2.33 30.08 84.52 0.163
AIST-M GCD 35.36 0.245 10.97 1.52 42.52 72.15 0.083
AIST-M DanY 40.25 0.240 11.40 1.65 50.29 63.53 0.137
AIST-M PDVAE 31.49 0.257 11.81 1.42 41.24 78.64 0.076

PDVAE在几乎所有指标上取得最优,特别是群舞指标(GMR、GMC、TIF)大幅领先。

可扩展性实验(4GB消费级GPU)

舞者数 方法 FID↓ GMR↓ GMC↑ TIF↓
5 GCD 35.08 38.43 81.44 0.168
5 PDVAE 31.35 32.58 84.56 0.161
10 GCD N/A (内存溢出) N/A N/A N/A
10 PDVAE 32.19 34.32 86.96 0.193
100 GDanceR N/A (内存溢出) N/A N/A N/A
100 PDVAE 30.97 38.13 85.73 0.222

PDVAE可在4GB GPU上生成100个舞者,而GCD在10个舞者时就内存溢出,GDanceR在100个舞者时溢出。PDVAE内存消耗恒定不变。

消融实验

配置 FID↓ GMR↓ GMC↑
PDVAE 完整 31.01 30.08 84.52
去掉一致性损失 35.35 57.63 66.72
去掉相位流形 41.78 45.32 77.93
替换为LSTM骨干 41.29 47.47 71.82
替换为CNN骨干 36.99 44.94 75.77

关键发现

  • 相位流形贡献最大:去掉后FID从31.01升至41.78,GMR从30.08升至45.32,说明频域参数化是模型成功的核心
  • 一致性损失对群舞质量至关重要:去掉后GMC从84.52暴跌至66.72,群舞协调性严重下降
  • Transformer骨干显著优于LSTM和CNN:LSTM的FID为41.29,说明长距离依赖建模对舞蹈生成非常重要
  • 可扩展性:PDVAE是唯一能在消费级GPU上生成100个舞者的方法,且性能不随舞者数量下降
  • 用户研究(约70人):随着舞者数增加,所有方法的真实感评分下降,但PDVAE的下降幅度最小

亮点与洞察

  • 频域相位参数化VAE潜空间:极具创新性的设计。传统VAE用高斯向量丢失时序信息,而相位参数天然编码运动的时序特征(\(A\)=振幅、\(F\)=频率、\(S\)=相移、\(B\)=偏移),使潜空间结构化且可解释。这个思路可推广到任何需要时序结构的VAE任务(如语音、音乐生成)
  • 恒定内存的可扩展生成:推理时只需运行先验网络一次获得分布,然后对每个新舞者采样+解码即可。这种"编码一次、采样无限次"的设计是解决可扩展性的优雅方案
  • 频率和偏移确定性、幅度和相移变分:这个设计选择很巧妙——频率和偏移关联节拍,必须群体一致;幅度和相移关联动作强度和时机,可以个体差异

局限性

  • 使用全局轨迹预测器避免舞者交叉,但100个舞者时TIF (0.222) 仍较高
  • 相位流形假设运动是准周期的,对非周期性运动(如舞蹈开头/结尾的pose)可能表现不佳
  • 只评估了SMPL身体模型的关键点运动,未涉及手指、面部等细节
  • 数据集AIOZ-GDance的最大群组人数有限,100人群舞的ground truth无法获取

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 频域相位参数化VAE潜空间的思路极为新颖,恒定内存的可扩展设计也很巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、可扩展性测试、消融、用户研究全面覆盖
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰但略冗长
  • 价值: ⭐⭐⭐⭐⭐ 首次实现恒定内存的任意规模群舞生成,对运动合成领域有重要推动

相关论文