跳转至

In-the-wild Audio Spatialization with Flexible Text-guided Localization

会议: ACL 2025
arXiv: 2506.00927
代码: GitHub
领域: others
关键词: audio spatialization, binaural audio, text-guided, latent diffusion, spatial reasoning

一句话总结

提出 TAS(Text-guided Audio Spatialization)框架,用灵活的文本提示(3D 空间位置描述或声源间相对位置描述)引导潜在扩散模型将单声道音频转换为双耳音频,构建了 376K 样本的 SpatialTAS 数据集,在模拟和真实录制数据上均超越现有方法,并基于 Llama-3.1-8B 开发了空间语义一致性评估模型。

研究背景与动机

  1. 领域现状:音频空间化(Audio Spatialization)将单声道音频映射为双耳音频,为 VR/AR 和具身 AI 提供空间感知。现有方法主要依赖视觉帧引导。
  2. 现有痛点:(a) 视觉引导方法受限于摄像头视角,无法处理视野外的声源;(b) 缺乏灵活的交互控制——用户无法选择性地指定特定声源的空间位置;(c) 高质量大规模立体声数据稀缺。
  3. 核心矛盾:复杂多物体交互环境需要灵活可控的空间化方法,但现有方法要么依赖完整视觉帧,要么缺乏选择性控制。
  4. 本文要解决什么? 用文本描述(而非视觉帧)灵活控制音频空间化,支持 3D 位置指定和声源间相对关系描述。
  5. 切入角度:学习双耳差异(左-右通道差)而非完整双耳音频,降低建模难度;用潜在扩散模型在 mel-spectrogram 潜空间中生成。
  6. 核心 idea 一句话:用文本描述声源空间位置,训练潜在扩散模型学习通道差异来实现灵活可控的音频空间化。

方法详解

整体框架

输入单声道音频 \(A_{\text{mono}} = A_l + A_r\) + 文本位置描述 \(T_{\text{prompts}}\),模型学习通道差异 \(A_{lr} = A_l - A_r\),推理时通过 \(\hat{A}_l = (A_{\text{mono}} + A_{lr})/2\)\(\hat{A}_r = (A_{\text{mono}} - A_{lr})/2\) 恢复双耳音频。

关键设计

  1. 通道差异学习 + 潜在扩散:
  2. 做什么:不直接生成双耳音频,而是学习左右通道差异的潜在表示
  3. 核心思路:VAE 编码 \(A_{lr}\) 的 mel-spectrogram 到潜空间 → 条件扩散模型以文本+音频 embedding 为条件去噪 → VAE 解码 + HiFi-GAN 声码器重建波形
  4. 设计动机:学通道差异比学完整双耳音频更简单,且潜在空间比波形空间计算效率更高

  5. 文本空间一致性增强:

  6. 做什么:通过翻转通道音频(\(A_{rl} = A_r - A_l\))作为负样本,微调文本编码器学习空间判别能力
  7. 核心思路:分类器 \(P\) 判断音频差异是否与文本描述匹配,BCE 损失 \(\mathcal{L}_{loc}\) 训练文本编码器捕获空间方位信息
  8. 设计动机:预训练文本编码器(FLAN-T5)缺乏空间音频对齐训练,翻转通道提供简单有效的对比信号

  9. LLM 空间理解评估:

  10. 做什么:微调 Llama-3.1-8B 作为空间音频推理评估器,评估生成双耳音频的空间语义正确性
  11. 核心思路:将真实/生成双耳音频送入评估模型回答空间问题,预测准确率差距越小说明空间保真度越高

损失函数

总损失 = 扩散噪声预测损失 \(\mathcal{L}_\theta\) + 空间一致性 BCE 损失 \(\mathcal{L}_{loc}\),使用 Classifier-Free Guidance(\(\gamma=2.5\)

实验关键数据

主实验(SpatialTAS 测试集)

方法 FD↓ FAD↓ DOA↓ DE↓ Direction↓ Distance↓
Mono-Mono 9.03 3.67 19.66 18.12 12.79 15.33
PseudoBinaural 7.23 2.81 6.39 4.00 10.36 12.91
TAS (ours) 4.93 1.44 3.07 2.45 6.99 8.16

消融实验

配置 FD↓ DOA↓ Direction↓
Full model 4.93 3.07 6.99
w/o text 6.77 5.87 9.25
w/o Flipper 5.08 4.14 8.63

关键发现

  • 文本引导显著优于无条件:去掉文本后所有指标明显退化
  • 翻转通道增强对空间感知指标(DOA, Direction)贡献显著
  • 在真实录制数据(FAIR-Play、YouTube-Binaural)上有良好泛化,在 STFT/ENV 等传统指标上也接近或超越视觉引导方法
  • 相对位置描述("A在B左边")比绝对位置描述更难学但更实用

亮点与洞察

  • 文本替代视觉帧作为空间化引导条件是一个重要方向转变——不受视角限制,支持选择性控制
  • 通道差异建模思路简洁有效,避免了直接建模完整双耳音频的复杂性
  • 用 LLM 做空间音频评估是新颖的思路,弥补了传统音频质量指标无法评估空间正确性的缺陷

局限性 / 可改进方向

  • 训练数据为模拟数据(SpatialSoundQA),真实环境的混响和噪声可能未充分覆盖
  • 文本描述仍需用户手动提供或从视觉帧用 GPT-4o 生成,未实现完全端到端
  • 10 秒音频长度限制,未覆盖长时音频场景
  • 仅评估英文文本描述

相关工作与启发

  • vs 视觉引导方法(Mono2Binaural 等): 不受 FOV 限制,但需要额外的文本描述输入
  • vs Li et al. (2024b): 首个文本引导方法但仅在小规模 FAIR-Play 上标注,TAS 构建了 376K 大规模数据
  • vs 波形空间扩散: 潜在扩散更高效,生成质量更好

评分

  • 新颖性: ⭐⭐⭐⭐ 文本引导空间化+通道差异潜在扩散的组合有新意
  • 实验充分度: ⭐⭐⭐⭐ 模拟+真实数据、生成+理解指标、消融全面
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 对 VR/AR 和具身 AI 音频系统有实际应用价值