跳转至

MOSPA: Human Motion Generation Driven by Spatial Audio

会议: NeurIPS 2025
arXiv: 2507.11949
代码: 有
领域: 人体运动生成
关键词: 空间音频, 运动生成, 扩散模型, SAM数据集, 双耳音频

一句话总结

首次提出空间音频驱动的人体运动生成:构建 SAM 数据集(9+ 小时 Ambisonics 空间音频-运动配对数据),设计 MOSPA 扩散模型框架融合空间位置信息 + 语义音频特征,在 VR/游戏/辅助技术等方面有应用前景。

研究背景与动机

  1. 领域现状:音频驱动的人体运动生成已有较多研究——音乐驱动舞蹈(EDGE、Bailando等)、语音驱动手势。但这些方法仅利用音频的语义/节奏信息,忽略了声音的空间位置信息(方向、距离)。

  2. 现有痛点

  3. 现有音频-运动数据集不包含空间音频信息
  4. 人类对声音的反应不仅取决于"什么声音"也取决于"声音在哪"——转头看声源、闪避危险声
  5. 没有方法能生成基于声源方位的运动响应

  6. 核心矛盾:真实世界中的听觉-运动耦合是空间性的(我们转向声源方向、回避从后方来的声音),但现有方法无法建模这种空间关系。

  7. 本文要解决什么? (a) 构建首个空间音频-运动配对数据集;(b) 设计能利用空间音频信息生成对应运动的模型。

  8. 切入角度:使用 Ambisonics 格式录制空间音频(保留完整方向信息),配合 MoCap 同步采集运动,训练条件扩散模型。

  9. 核心 idea 一句话:空间音频(方位+语义)→ 条件扩散模型 → 空间感知的人体运动。

方法详解

整体框架

输入:空间音频(Ambisonics 格式/双耳) → 空间特征提取(方位角/仰角/距离)+ 语义特征提取(音频内容编码)→ 融合空间和语义条件 → 扩散模型去噪 → 输出人体运动序列。

关键设计

  1. SAM 数据集构建:
  2. 做什么:首个空间音频-运动配对数据集
  3. 核心思路:在配备 Ambisonics 麦克风阵列的 MoCap 实验室中采集。参与者听到来自不同方向的声音并做出自然反应。9+ 小时数据,覆盖多种声源方位和运动类型
  4. 设计动机:没有数据就没有模型——这是开启空间音频-运动研究的基础设施

  5. 空间特征编码:

  6. 做什么:从 Ambisonics 音频中提取声源方位信息
  7. 核心思路:方位角、仰角和距离作为空间条件。可通过 Ambisonics 的球谐分解直接计算
  8. 设计动机:空间信息是理解"声音在哪"的关键,直接影响运动方向(转向声源)

  9. 条件扩散模型:

  10. 做什么:以空间+语义音频特征为条件生成运动
  11. 核心思路:将空间条件和语义条件分别编码后融合注入去噪网络的各层。采用 classifier-free guidance 增强条件效果
  12. 设计动机:扩散模型在运动生成中已证明有效(MDM、MotionDiffuse),本文扩展其条件到空间维度

损失函数 / 训练策略

  • 标准扩散去噪损失 + 可选的运动空间一致性正则化
  • 在 SAM 数据集上训练

实验关键数据

主实验

方法 FID(VGGISH)↓ FID(CLAP)↓ 空间一致性↑
无空间条件基线 较高 较高
仅语义条件 中等 中等
MOSPA(全条件) 最低 最低

消融实验

配置 FID 空间一致性 说明
完整模型 最优 最优 空间+语义条件
w/o 空间条件 升高 大幅降低 运动方向随机
w/o 语义条件 升高 保持 运动类型不匹配

关键发现

  • 空间条件是核心贡献:去掉空间条件后运动方向变为随机,证明模型确实学到了空间音频-运动的对应关系
  • 无手指运动:当前 MoCap 设置未捕捉手指,限制了精细运动生成
  • SAM 数据集规模仍然较小,更大数据集可能进一步提升质量

亮点与洞察

  • "声音在哪"影响"怎么动"的研究方向非常新颖且有明确应用——VR 沉浸感(听到身后脚步声时转身)、辅助视障人士的空间感知训练
  • SAM 数据集作为首个空间音频-运动数据集,对该方向有基础性贡献
  • 从 Ambisonics 到双耳音频的后处理可用于生成个性化的空间听觉体验

局限性 / 可改进方向

  • 无手指运动采集,限制了精细交互
  • 数据集仅 9+ 小时,多样性有限
  • 空间分辨率受 Ambisonics 阶数限制
  • 仅考虑单声源,多声源场景未探索
  • 当前仅考虑静态场景中的空间音频,运动中的头部相关转换传递函数(HRTF)未建模
  • 未与真实 VR 头显上的空间音频渲染做端到端集成验证

相关工作与启发

  • vs EDGE / Bailando:仅用音乐节拍驱动舞蹈,无空间信息。MOSPA 加入空间维度
  • vs 语音手势生成:仅用语义驱动,MOSPA 同时利用语义和空间信息
  • 对 VR/AR 中基于空间音频的化身驱动有直接启发

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次定义并解决空间音频驱动运动生成问题
  • 实验充分度: ⭐⭐⭐ 数据集有限、消融基本完整但对比方法少
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰
  • 价值: ⭐⭐⭐⭐ SAM 数据集和框架对VR/音频-运动研究有标志性贡献