In-the-wild Audio Spatialization with Flexible Text-guided Localization¶

会议: ACL 2025
arXiv: 2506.00927
代码: GitHub
领域: others
关键词: audio spatialization, binaural audio, text-guided, latent diffusion, spatial reasoning

一句话总结¶

提出 TAS（Text-guided Audio Spatialization）框架，用灵活的文本提示（3D 空间位置描述或声源间相对位置描述）引导潜在扩散模型将单声道音频转换为双耳音频，构建了 376K 样本的 SpatialTAS 数据集，在模拟和真实录制数据上均超越现有方法，并基于 Llama-3.1-8B 开发了空间语义一致性评估模型。

研究背景与动机¶

领域现状：音频空间化（Audio Spatialization）将单声道音频映射为双耳音频，为 VR/AR 和具身 AI 提供空间感知。现有方法主要依赖视觉帧引导。
现有痛点：(a) 视觉引导方法受限于摄像头视角，无法处理视野外的声源；(b) 缺乏灵活的交互控制——用户无法选择性地指定特定声源的空间位置；(c) 高质量大规模立体声数据稀缺。
核心矛盾：复杂多物体交互环境需要灵活可控的空间化方法，但现有方法要么依赖完整视觉帧，要么缺乏选择性控制。
本文要解决什么？ 用文本描述（而非视觉帧）灵活控制音频空间化，支持 3D 位置指定和声源间相对关系描述。
切入角度：学习双耳差异（左-右通道差）而非完整双耳音频，降低建模难度；用潜在扩散模型在 mel-spectrogram 潜空间中生成。
核心 idea 一句话：用文本描述声源空间位置，训练潜在扩散模型学习通道差异来实现灵活可控的音频空间化。

方法详解¶

整体框架¶

输入单声道音频 \(A_{\text{mono}} = A_l + A_r\) + 文本位置描述 \(T_{\text{prompts}}\)，模型学习通道差异 \(A_{lr} = A_l - A_r\)，推理时通过 \(\hat{A}_l = (A_{\text{mono}} + A_{lr})/2\) 和 \(\hat{A}_r = (A_{\text{mono}} - A_{lr})/2\) 恢复双耳音频。

关键设计¶

通道差异学习 + 潜在扩散:
做什么：不直接生成双耳音频，而是学习左右通道差异的潜在表示
核心思路：VAE 编码 \(A_{lr}\) 的 mel-spectrogram 到潜空间 → 条件扩散模型以文本+音频 embedding 为条件去噪 → VAE 解码 + HiFi-GAN 声码器重建波形
设计动机：学通道差异比学完整双耳音频更简单，且潜在空间比波形空间计算效率更高
文本空间一致性增强:
做什么：通过翻转通道音频（\(A_{rl} = A_r - A_l\)）作为负样本，微调文本编码器学习空间判别能力
核心思路：分类器 \(P\) 判断音频差异是否与文本描述匹配，BCE 损失 \(\mathcal{L}_{loc}\) 训练文本编码器捕获空间方位信息
设计动机：预训练文本编码器（FLAN-T5）缺乏空间音频对齐训练，翻转通道提供简单有效的对比信号
LLM 空间理解评估:
做什么：微调 Llama-3.1-8B 作为空间音频推理评估器，评估生成双耳音频的空间语义正确性
核心思路：将真实/生成双耳音频送入评估模型回答空间问题，预测准确率差距越小说明空间保真度越高

损失函数¶

总损失 = 扩散噪声预测损失 \(\mathcal{L}_\theta\) + 空间一致性 BCE 损失 \(\mathcal{L}_{loc}\)，使用 Classifier-Free Guidance（\(\gamma=2.5\)）

实验关键数据¶

主实验（SpatialTAS 测试集）¶

方法	FD↓	FAD↓	DOA↓	DE↓	Direction↓	Distance↓
Mono-Mono	9.03	3.67	19.66	18.12	12.79	15.33
PseudoBinaural	7.23	2.81	6.39	4.00	10.36	12.91
TAS (ours)	4.93	1.44	3.07	2.45	6.99	8.16

消融实验¶

配置	FD↓	DOA↓	Direction↓
Full model	4.93	3.07	6.99
w/o text	6.77	5.87	9.25
w/o Flipper	5.08	4.14	8.63

关键发现¶

文本引导显著优于无条件：去掉文本后所有指标明显退化
翻转通道增强对空间感知指标（DOA, Direction）贡献显著
在真实录制数据（FAIR-Play、YouTube-Binaural）上有良好泛化，在 STFT/ENV 等传统指标上也接近或超越视觉引导方法
相对位置描述（"A在B左边"）比绝对位置描述更难学但更实用

亮点与洞察¶

文本替代视觉帧作为空间化引导条件是一个重要方向转变——不受视角限制，支持选择性控制
通道差异建模思路简洁有效，避免了直接建模完整双耳音频的复杂性
用 LLM 做空间音频评估是新颖的思路，弥补了传统音频质量指标无法评估空间正确性的缺陷

局限性 / 可改进方向¶

训练数据为模拟数据（SpatialSoundQA），真实环境的混响和噪声可能未充分覆盖
文本描述仍需用户手动提供或从视觉帧用 GPT-4o 生成，未实现完全端到端
10 秒音频长度限制，未覆盖长时音频场景
仅评估英文文本描述

评分¶

新颖性: ⭐⭐⭐⭐ 文本引导空间化+通道差异潜在扩散的组合有新意
实验充分度: ⭐⭐⭐⭐ 模拟+真实数据、生成+理解指标、消融全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示直观
价值: ⭐⭐⭐⭐ 对 VR/AR 和具身 AI 音频系统有实际应用价值