InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization¶

日期: 2026-03-10
arXiv: 2603.13375
代码: 有（项目页面）
领域: 图像生成 / 3D动作生成
关键词: 3D dance generation, LLaMA, RAG, Mixture-of-Experts, foot restoration, diffusion

一句话总结¶

提出 InfiniteDance 框架，从数据和模型两端同时 scale up 3D 舞蹈生成：(1) 自动化管线从单目视频重建 100.69 小时高质量 3D 舞蹈数据集（含 30 种舞种），核心是 Foot Restoration Diffusion Model 修复脚部伪影；(2) ChoreoLLaMA 基于 LLaMA 架构 + RAG 检索增强 + Cadence-MoE 节奏专家混合，实现对野外音乐的泛化舞蹈生成。

研究背景与动机¶

领域现状: 3D 舞蹈生成在动画、影视、交互娱乐中需求巨大，但现有方法在受控场景外的泛化能力差。
现有痛点: (i) 数据稀缺——MoCap 数据高质量但仅几小时，单目重建可扩展但伪影严重（穿透、浮空、脚滑）；(ii) 模型泛化差——手工设计的音乐条件化方案对不同舞种/节奏适应性差（如 Lodge 只适合快节奏）。
核心 idea: 受大规模模型启发，同时扩大数据（100h+ 自动化重建）和模型容量（LLaMA backbone + RAG + MoE），推动 3D 舞蹈生成走向实用。

方法详解¶

数据管线：InfiniteDance 数据集¶

单目视频 → 3D 动作估计: YOLOv8 单人提取 → GVHMR 估计身体 + SMPLest-X 估计手/脸
物理模拟修正: PHC 在物理仿真器中做动作模仿，消除穿透/浮空/脚滑，但引入脚部抖动
Foot Restoration Diffusion Model (FRDM):
- 自监督训练：在高质量 MoCap 数据上训练，仅修复 root/膝/脚关节，保持上身不变
- 推理引导：早期步骤用几何引导保持全局一致性，最后步骤用脚接触引导消除滑移
- 最终 FSR 5.09%（优于 MoCap 的 FineDance 6.22%）

模型：ChoreoLLaMA¶

连续 Token 嵌入输入（而非离散 token 索引）:
- 音乐：MuQ 预训练模型 → 线性投影
- 舞蹈：RVQ-VAE（3层码本，512词，1024维）→ 展平投影
- 保留了细粒度特征信息，改善音乐-动作对齐
RAG 检索增强编舞:
- 训练 CLIP 风格的音乐-舞蹈跨模态检索网络
- 检索 top-10 最相关参考舞蹈，加权融合作为先验
Cadence-MoE（节奏专家混合）:
- 对参考舞蹈做 RFFT 获取频域特征
- 分为 2 个频带，各由专家网络处理（线性层 + 注意力 + Mamba）
- 门控网络动态选择专家，适应不同舞种的快/慢节奏

实验关键数据¶

InfiniteDance 测试集¶

方法	FIDk↓	FSR↓	Divk↑	BAS↑
Bailando	117.38	15.56%	5.46	0.2137
EDGE	96.07	14.15%	4.36	0.2321
Lodge	89.52	6.72%	3.93	0.2329
ChoreoLLaMA	30.54	5.33%	6.23	0.2342

关键发现¶

FIDk 从 Lodge 的 89.52 降至 30.54——动作质量大幅提升
脚滑率 5.33% 接近专业 MoCap 水平
跨数据集泛化：在 AIST++/FineDance 上均大幅优于 Lodge
OOD 音乐（训练 BPM 范围外）FIDk 56.22 vs Lodge 119.66
用户研究 win rate 68-89%

亮点与洞察¶

FRDM 的自监督训练设计很巧妙——仅替换 root/膝/脚部分加噪，上身保持不变，无需配对数据
从离散 token 索引到连续嵌入 的输入改进看似简单但效果显著——BAS 从 0.2073 跳到 0.2269
RAG + MoE 的组合 同时解决了泛化（RAG 注入参考先验）和节奏适应（MoE 处理不同频带）
100.69 小时数据集 覆盖 30 种舞种，是目前最大的高质量 3D 舞蹈-音乐配对数据集

局限性 / 可改进方向¶

ChoreoLLaMA 单次前向生成，不支持人类交互式编舞反馈
数据集主要来自短视频平台，舞种分布受平台热度影响
FRDM 的物理仿真步骤耗时较长（一个月）

评分¶

新颖性: ⭐⭐⭐⭐ 数据管线（FRDM）+ 模型架构（RAG+MoE）双创新
实验充分度: ⭐⭐⭐⭐⭐ 多数据集对比 + OOD 泛化 + 详细消融 + 用户研究
写作质量: ⭐⭐⭐⭐ 图示清晰，管线和模型描述详尽
价值: ⭐⭐⭐⭐⭐ 数据集和方法对 3D 舞蹈生成社区都有重大贡献