InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization¶
日期: 2026-03-10
arXiv: 2603.13375
代码: 有(项目页面)
领域: 图像生成 / 3D动作生成
关键词: 3D dance generation, LLaMA, RAG, Mixture-of-Experts, foot restoration, diffusion
一句话总结¶
提出 InfiniteDance 框架,从数据和模型两端同时 scale up 3D 舞蹈生成:(1) 自动化管线从单目视频重建 100.69 小时高质量 3D 舞蹈数据集(含 30 种舞种),核心是 Foot Restoration Diffusion Model 修复脚部伪影;(2) ChoreoLLaMA 基于 LLaMA 架构 + RAG 检索增强 + Cadence-MoE 节奏专家混合,实现对野外音乐的泛化舞蹈生成。
研究背景与动机¶
-
领域现状: 3D 舞蹈生成在动画、影视、交互娱乐中需求巨大,但现有方法在受控场景外的泛化能力差。
-
现有痛点: (i) 数据稀缺——MoCap 数据高质量但仅几小时,单目重建可扩展但伪影严重(穿透、浮空、脚滑);(ii) 模型泛化差——手工设计的音乐条件化方案对不同舞种/节奏适应性差(如 Lodge 只适合快节奏)。
-
核心 idea: 受大规模模型启发,同时扩大数据(100h+ 自动化重建)和模型容量(LLaMA backbone + RAG + MoE),推动 3D 舞蹈生成走向实用。
方法详解¶
数据管线:InfiniteDance 数据集¶
- 单目视频 → 3D 动作估计: YOLOv8 单人提取 → GVHMR 估计身体 + SMPLest-X 估计手/脸
- 物理模拟修正: PHC 在物理仿真器中做动作模仿,消除穿透/浮空/脚滑,但引入脚部抖动
- Foot Restoration Diffusion Model (FRDM):
- 自监督训练:在高质量 MoCap 数据上训练,仅修复 root/膝/脚关节,保持上身不变
- 推理引导:早期步骤用几何引导保持全局一致性,最后步骤用脚接触引导消除滑移
- 最终 FSR 5.09%(优于 MoCap 的 FineDance 6.22%)
模型:ChoreoLLaMA¶
-
连续 Token 嵌入输入(而非离散 token 索引):
- 音乐:MuQ 预训练模型 → 线性投影
- 舞蹈:RVQ-VAE(3层码本,512词,1024维)→ 展平投影
- 保留了细粒度特征信息,改善音乐-动作对齐
-
RAG 检索增强编舞:
- 训练 CLIP 风格的音乐-舞蹈跨模态检索网络
- 检索 top-10 最相关参考舞蹈,加权融合作为先验
-
Cadence-MoE(节奏专家混合):
- 对参考舞蹈做 RFFT 获取频域特征
- 分为 2 个频带,各由专家网络处理(线性层 + 注意力 + Mamba)
- 门控网络动态选择专家,适应不同舞种的快/慢节奏
实验关键数据¶
InfiniteDance 测试集¶
| 方法 | FIDk↓ | FSR↓ | Divk↑ | BAS↑ |
|---|---|---|---|---|
| Bailando | 117.38 | 15.56% | 5.46 | 0.2137 |
| EDGE | 96.07 | 14.15% | 4.36 | 0.2321 |
| Lodge | 89.52 | 6.72% | 3.93 | 0.2329 |
| ChoreoLLaMA | 30.54 | 5.33% | 6.23 | 0.2342 |
关键发现¶
- FIDk 从 Lodge 的 89.52 降至 30.54——动作质量大幅提升
- 脚滑率 5.33% 接近专业 MoCap 水平
- 跨数据集泛化:在 AIST++/FineDance 上均大幅优于 Lodge
- OOD 音乐(训练 BPM 范围外)FIDk 56.22 vs Lodge 119.66
- 用户研究 win rate 68-89%
亮点与洞察¶
- FRDM 的自监督训练设计很巧妙——仅替换 root/膝/脚部分加噪,上身保持不变,无需配对数据
- 从离散 token 索引到连续嵌入 的输入改进看似简单但效果显著——BAS 从 0.2073 跳到 0.2269
- RAG + MoE 的组合 同时解决了泛化(RAG 注入参考先验)和节奏适应(MoE 处理不同频带)
- 100.69 小时数据集 覆盖 30 种舞种,是目前最大的高质量 3D 舞蹈-音乐配对数据集
局限性 / 可改进方向¶
- ChoreoLLaMA 单次前向生成,不支持人类交互式编舞反馈
- 数据集主要来自短视频平台,舞种分布受平台热度影响
- FRDM 的物理仿真步骤耗时较长(一个月)
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据管线(FRDM)+ 模型架构(RAG+MoE)双创新
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集对比 + OOD 泛化 + 详细消融 + 用户研究
- 写作质量: ⭐⭐⭐⭐ 图示清晰,管线和模型描述详尽
- 价值: ⭐⭐⭐⭐⭐ 数据集和方法对 3D 舞蹈生成社区都有重大贡献