跳转至

Resounding Acoustic Fields with Reciprocity

会议: NeurIPS 2025
arXiv: 2510.20602
代码:
领域: 音频/语音 / 声学建模
关键词: 声场学习, 互易性, 脉冲响应, 数据增强, 自监督学习

一句话总结

利用声波传播的互易性原理,提出Versa方法(ELE数据增强+SSL自监督学习),通过交换发射器和接收器角色来生成物理有效的虚拟训练样本,在稀疏发射器配置下大幅提升声场估计性能。

研究背景与动机

AR/VR沉浸式体验要求能在任意发射器位置建模声场,但现有方法面临数据收集的根本不对称:麦克风(接收器)可以密集、低成本部署,而扬声器(发射器)因体积大、功耗高难以大量安装。现有神经声场方法要么需要数百个发射器位置的密集部署,要么依赖简化几何的可微光线追踪。本文提出"resounding"任务——类比于视觉中的relighting——从仅少于10个发射器位置的稀疏观测估计任意发射器位置的声场。

方法详解

整体框架

基于声学互易性原理:交换声源和接收器位置后,波传播路径反向但累积传播效应不变。在此基础上提出两种互补策略:Versa-ELE(数据增强)和Versa-SSL(自监督学习)。

关键设计

声学互易性理论:对于单路径脉冲响应\(h(t;\mathcal{P},\omega_e,\omega_l) = G_e(\omega_0;\omega_e)\Gamma(t;\mathcal{P})G_l(\omega_K;\omega_l)\),路径影响函数\(\Gamma(t;\mathcal{P})\)在交换发射/接收后保持不变。当发射器和接收器增益模式相同时(全向或同向),交换后脉冲响应完全相同。

Versa-ELE(发射器-接收器交换):对每个训练样本\((p_e, p_l, \omega_e, \omega_l, h(t))\),创建交换后的新样本\((p_l, p_e, \omega_l, \omega_e, h(t))\)。将密集的麦克风位置转化为虚拟发射器位置,有效缓解发射器的稀疏性。实现为简单的数据增强,模型无关。

Versa-SSL(自监督学习):当发射器/接收器增益模式不同时,直接交换不成立。解决方案:(1) 利用AVR模型可分离控制接收器增益模式的特性;(2) 查询声场模型获取发射器增益模式\(G_e\);(3) 用发射器增益替换接收器增益使两者一致;(4) 强制交换前后预测的一致性作为自监督损失\(\mathcal{L} = \mathcal{L}_a(h, h^*) + \lambda \mathcal{L}_{a\text{-ssl}}(h_1, h_2)\)

损失函数 / 训练策略

  • ELE:直接作为数据增强使用,不改变损失函数
  • SSL两阶段训练:第一阶段用监督音频损失\(\mathcal{L}_a\)拟合脉冲响应;第二阶段提取发射器模式后用球谐参数编码,加入一致性自监督损失
  • 逐步增加噪声避免模型学习捷径

实验关键数据

主实验(模拟数据集,同增益模式AcoustiX-Same)

方法 Scene1-STFT Scene1-C50 Scene2-STFT Scene2-C50 Scene3-STFT Scene3-C50
NN 2.87 2.84 3.54 10.71 3.29 7.42
INRAS 1.96 2.71 1.96 2.71 4.22 7.14
NAF 4.69 2.73 - - - -
INRAS+ELE 1.36 1.72 1.81 1.98 1.67 2.79

互易性验证(真实数据)

环境 配对-Amp 非配对-Amp 配对-C50 非配对-C50
Kitchen 0.24 1.74 0.29 3.69
Conference 0.22 1.09 0.23 3.35
Office 0.23 1.54 0.18 2.49

关键发现

  • Versa-ELE模型无关,对现有神经声场模型平均C50改进34%、STFT改进31%
  • Versa-SSL在AVR基础上进一步改进C50 24%和STFT 48%
  • 真实数据验证了互易性在配对条件下的成立(误差远小于非配对)
  • 模拟数据中射线数量越多互易性越好(1000k射线时配对误差极小)

亮点与洞察

  1. 物理原理驱动的ML方法:将声学互易性这一基本物理原理融入ML训练,而非黑盒数据增强
  2. 通用性极强:ELE作为模型无关的数据增强可即插即用到任何声场模型
  3. 巧妙解决增益不对称:SSL通过解耦和交换增益模式,将互易性推广到非对称场景
  4. 感知用户研究确认:Versa显著提升空间音频的真实感和方向一致性

局限与展望

  • 互易性在理想条件下成立,真实环境中的非线性介质和复杂材料可能导致偏差
  • 当前仅作为结构正则化,未完全假设完美互易
  • 泛化到未见场景(跨房间)超出当前范围
  • SSL需要两阶段训练增加了复杂度

相关工作与启发

  • 类比于计算机图形学中的双向路径追踪利用互易性
  • 将互易性作为物理约束/正则化的思路可推广到其他波传播问题(光、射频、弹性波)
  • resounding任务的定义为声场建模开辟了新方向

评分

  • 新颖性:⭐⭐⭐⭐⭐(互易性在声学ML中的首次系统应用)
  • 技术深度:⭐⭐⭐⭐⭐(理论推导严密,方法设计精巧)
  • 实验完整性:⭐⭐⭐⭐⭐(模拟+真实+用户研究全面覆盖)
  • 实用价值:⭐⭐⭐⭐⭐(VR/AR沉浸式音频的直接应用)
  • 综合评价:⭐⭐⭐⭐⭐(将物理原理优雅地融入ML训练的典范)

补充分析

互易性验证实验(Table 1)展示了在真实环境和模拟环境中互易性的成立程度。配对的脉冲响应在所有指标上误差均远小于未配对情况(例如厨房场景C50从3.69降至0.29,办公场景从2.49降至0.18),验证了互易性原理在实际中的可靠性。模拟中增加射线数(10k→1000k)可进一步降低配对误差。

Table 2 展示了 Versa-ELE 作为即插即用的数据增强方法对NN、Linear、DiffRIR、INRAS和NAF等多个baseline的统一改善。例如 INRAS 的 STFT 从 Scene 3 的 4.22 降至 ELE 后的 1.67。这验证了方法的模型无关性。

Versa-SSL 的两阶段管道:第一阶段拟合声学场获得发射器方向增益模式 \(G_e\)(用球谐函数编码);第二阶段用 \(G_e\) 替换接收器增益模式实现一致性约束。推理时可替换任意HRTF实现个性化听觉。整体指标:Versa-ELE平均提升C50 34%、STFT 31%;Versa-SSL在AVR上进一步提升C50 24%、STFT 48%。

相关论文