MOSPA: Human Motion Generation Driven by Spatial Audio¶

会议: NeurIPS 2025
arXiv: 2507.11949
代码: 有
领域: 人体运动生成
关键词: 空间音频, 运动生成, 扩散模型, SAM数据集, 双耳音频

一句话总结¶

首次提出空间音频驱动的人体运动生成：构建 SAM 数据集（9+ 小时 Ambisonics 空间音频-运动配对数据），设计 MOSPA 扩散模型框架融合空间位置信息 + 语义音频特征，在 VR/游戏/辅助技术等方面有应用前景。

领域现状：音频驱动的人体运动生成已有较多研究——音乐驱动舞蹈（EDGE、Bailando等）、语音驱动手势。但这些方法仅利用音频的语义/节奏信息，忽略了声音的空间位置信息（方向、距离）。
现有痛点：
现有音频-运动数据集不包含空间音频信息
人类对声音的反应不仅取决于"什么声音"也取决于"声音在哪"——转头看声源、闪避危险声
没有方法能生成基于声源方位的运动响应
核心矛盾：真实世界中的听觉-运动耦合是空间性的（我们转向声源方向、回避从后方来的声音），但现有方法无法建模这种空间关系。
本文要解决什么？ (a) 构建首个空间音频-运动配对数据集；(b) 设计能利用空间音频信息生成对应运动的模型。
切入角度：使用 Ambisonics 格式录制空间音频（保留完整方向信息），配合 MoCap 同步采集运动，训练条件扩散模型。
核心 idea 一句话：空间音频（方位+语义）→ 条件扩散模型 → 空间感知的人体运动。

输入：空间音频（Ambisonics 格式/双耳） → 空间特征提取（方位角/仰角/距离）+ 语义特征提取（音频内容编码）→ 融合空间和语义条件 → 扩散模型去噪 → 输出人体运动序列。

SAM 数据集构建:
做什么：首个空间音频-运动配对数据集
核心思路：在配备 Ambisonics 麦克风阵列的 MoCap 实验室中采集。参与者听到来自不同方向的声音并做出自然反应。9+ 小时数据，覆盖多种声源方位和运动类型
设计动机：没有数据就没有模型——这是开启空间音频-运动研究的基础设施
空间特征编码:
做什么：从 Ambisonics 音频中提取声源方位信息
核心思路：方位角、仰角和距离作为空间条件。可通过 Ambisonics 的球谐分解直接计算
设计动机：空间信息是理解"声音在哪"的关键，直接影响运动方向（转向声源）
条件扩散模型:
做什么：以空间+语义音频特征为条件生成运动
核心思路：将空间条件和语义条件分别编码后融合注入去噪网络的各层。采用 classifier-free guidance 增强条件效果
设计动机：扩散模型在运动生成中已证明有效（MDM、MotionDiffuse），本文扩展其条件到空间维度

方法	FID（VGGISH）↓	FID（CLAP）↓	空间一致性↑
无空间条件基线	较高	较高	低
仅语义条件	中等	中等	低
MOSPA（全条件）	最低	最低	高

配置	FID	空间一致性	说明
完整模型	最优	最优	空间+语义条件
w/o 空间条件	升高	大幅降低	运动方向随机
w/o 语义条件	升高	保持	运动类型不匹配