Resounding Acoustic Fields with Reciprocity¶
会议: NeurIPS 2025
arXiv: 2510.20602
代码: 有
领域: 音频/语音 / 声学建模
关键词: 声场学习, 互易性, 脉冲响应, 数据增强, 自监督学习
一句话总结¶
利用声波传播的互易性原理,提出Versa方法(ELE数据增强+SSL自监督学习),通过交换发射器和接收器角色来生成物理有效的虚拟训练样本,在稀疏发射器配置下大幅提升声场估计性能。
研究背景与动机¶
AR/VR沉浸式体验要求能在任意发射器位置建模声场,但现有方法面临数据收集的根本不对称:麦克风(接收器)可以密集、低成本部署,而扬声器(发射器)因体积大、功耗高难以大量安装。现有神经声场方法要么需要数百个发射器位置的密集部署,要么依赖简化几何的可微光线追踪。本文提出"resounding"任务——类比于视觉中的relighting——从仅少于10个发射器位置的稀疏观测估计任意发射器位置的声场。
方法详解¶
整体框架¶
基于声学互易性原理:交换声源和接收器位置后,波传播路径反向但累积传播效应不变。在此基础上提出两种互补策略:Versa-ELE(数据增强)和Versa-SSL(自监督学习)。
关键设计¶
声学互易性理论:对于单路径脉冲响应\(h(t;\mathcal{P},\omega_e,\omega_l) = G_e(\omega_0;\omega_e)\Gamma(t;\mathcal{P})G_l(\omega_K;\omega_l)\),路径影响函数\(\Gamma(t;\mathcal{P})\)在交换发射/接收后保持不变。当发射器和接收器增益模式相同时(全向或同向),交换后脉冲响应完全相同。
Versa-ELE(发射器-接收器交换):对每个训练样本\((p_e, p_l, \omega_e, \omega_l, h(t))\),创建交换后的新样本\((p_l, p_e, \omega_l, \omega_e, h(t))\)。将密集的麦克风位置转化为虚拟发射器位置,有效缓解发射器的稀疏性。实现为简单的数据增强,模型无关。
Versa-SSL(自监督学习):当发射器/接收器增益模式不同时,直接交换不成立。解决方案:(1) 利用AVR模型可分离控制接收器增益模式的特性;(2) 查询声场模型获取发射器增益模式\(G_e\);(3) 用发射器增益替换接收器增益使两者一致;(4) 强制交换前后预测的一致性作为自监督损失\(\mathcal{L} = \mathcal{L}_a(h, h^*) + \lambda \mathcal{L}_{a\text{-ssl}}(h_1, h_2)\)。
损失函数 / 训练策略¶
- ELE:直接作为数据增强使用,不改变损失函数
- SSL两阶段训练:第一阶段用监督音频损失\(\mathcal{L}_a\)拟合脉冲响应;第二阶段提取发射器模式后用球谐参数编码,加入一致性自监督损失
- 逐步增加噪声避免模型学习捷径
实验关键数据¶
主实验(模拟数据集,同增益模式AcoustiX-Same)¶
| 方法 | Scene1-STFT | Scene1-C50 | Scene2-STFT | Scene2-C50 | Scene3-STFT | Scene3-C50 |
|---|---|---|---|---|---|---|
| NN | 2.87 | 2.84 | 3.54 | 10.71 | 3.29 | 7.42 |
| INRAS | 1.96 | 2.71 | 1.96 | 2.71 | 4.22 | 7.14 |
| NAF | 4.69 | 2.73 | - | - | - | - |
| INRAS+ELE | 1.36 | 1.72 | 1.81 | 1.98 | 1.67 | 2.79 |
互易性验证(真实数据)¶
| 环境 | 配对-Amp | 非配对-Amp | 配对-C50 | 非配对-C50 |
|---|---|---|---|---|
| Kitchen | 0.24 | 1.74 | 0.29 | 3.69 |
| Conference | 0.22 | 1.09 | 0.23 | 3.35 |
| Office | 0.23 | 1.54 | 0.18 | 2.49 |
关键发现¶
- Versa-ELE模型无关,对现有神经声场模型平均C50改进34%、STFT改进31%
- Versa-SSL在AVR基础上进一步改进C50 24%和STFT 48%
- 真实数据验证了互易性在配对条件下的成立(误差远小于非配对)
- 模拟数据中射线数量越多互易性越好(1000k射线时配对误差极小)
亮点与洞察¶
- 物理原理驱动的ML方法:将声学互易性这一基本物理原理融入ML训练,而非黑盒数据增强
- 通用性极强:ELE作为模型无关的数据增强可即插即用到任何声场模型
- 巧妙解决增益不对称:SSL通过解耦和交换增益模式,将互易性推广到非对称场景
- 感知用户研究确认:Versa显著提升空间音频的真实感和方向一致性
局限与展望¶
- 互易性在理想条件下成立,真实环境中的非线性介质和复杂材料可能导致偏差
- 当前仅作为结构正则化,未完全假设完美互易
- 泛化到未见场景(跨房间)超出当前范围
- SSL需要两阶段训练增加了复杂度
相关工作与启发¶
- 类比于计算机图形学中的双向路径追踪利用互易性
- 将互易性作为物理约束/正则化的思路可推广到其他波传播问题(光、射频、弹性波)
- resounding任务的定义为声场建模开辟了新方向
评分¶
- 新颖性:⭐⭐⭐⭐⭐(互易性在声学ML中的首次系统应用)
- 技术深度:⭐⭐⭐⭐⭐(理论推导严密,方法设计精巧)
- 实验完整性:⭐⭐⭐⭐⭐(模拟+真实+用户研究全面覆盖)
- 实用价值:⭐⭐⭐⭐⭐(VR/AR沉浸式音频的直接应用)
- 综合评价:⭐⭐⭐⭐⭐(将物理原理优雅地融入ML训练的典范)
补充分析¶
互易性验证实验(Table 1)展示了在真实环境和模拟环境中互易性的成立程度。配对的脉冲响应在所有指标上误差均远小于未配对情况(例如厨房场景C50从3.69降至0.29,办公场景从2.49降至0.18),验证了互易性原理在实际中的可靠性。模拟中增加射线数(10k→1000k)可进一步降低配对误差。
Table 2 展示了 Versa-ELE 作为即插即用的数据增强方法对NN、Linear、DiffRIR、INRAS和NAF等多个baseline的统一改善。例如 INRAS 的 STFT 从 Scene 3 的 4.22 降至 ELE 后的 1.67。这验证了方法的模型无关性。
Versa-SSL 的两阶段管道:第一阶段拟合声学场获得发射器方向增益模式 \(G_e\)(用球谐函数编码);第二阶段用 \(G_e\) 替换接收器增益模式实现一致性约束。推理时可替换任意HRTF实现个性化听觉。整体指标:Versa-ELE平均提升C50 34%、STFT 31%;Versa-SSL在AVR上进一步提升C50 24%、STFT 48%。
相关论文¶
- [ICCV 2025] How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Objects
- [ACL 2025] Predicting Turn-Taking and Backchannel in Human-Machine Conversations Using Linguistic, Acoustic, and Visual Signals
- [ACL 2025] Acoustic Individual Identification of White-Faced Capuchin Monkeys Using Joint Multi-Species Embeddings
- [ICLR 2026] AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
- [NeurIPS 2025] Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization