Resounding Acoustic Fields with Reciprocity¶

会议: NeurIPS 2025
arXiv: 2510.20602
代码: 有
领域: 音频/语音 / 声学建模
关键词: 声场学习, 互易性, 脉冲响应, 数据增强, 自监督学习

一句话总结¶

利用声波传播的互易性原理，提出Versa方法（ELE数据增强+SSL自监督学习），通过交换发射器和接收器角色来生成物理有效的虚拟训练样本，在稀疏发射器配置下大幅提升声场估计性能。

研究背景与动机¶

AR/VR沉浸式体验要求能在任意发射器位置建模声场，但现有方法面临数据收集的根本不对称：麦克风（接收器）可以密集、低成本部署，而扬声器（发射器）因体积大、功耗高难以大量安装。现有神经声场方法要么需要数百个发射器位置的密集部署，要么依赖简化几何的可微光线追踪。本文提出"resounding"任务——类比于视觉中的relighting——从仅少于10个发射器位置的稀疏观测估计任意发射器位置的声场。

方法详解¶

整体框架¶

基于声学互易性原理：交换声源和接收器位置后，波传播路径反向但累积传播效应不变。在此基础上提出两种互补策略：Versa-ELE（数据增强）和Versa-SSL（自监督学习）。

关键设计¶

声学互易性理论：对于单路径脉冲响应\(h(t;\mathcal{P},\omega_e,\omega_l) = G_e(\omega_0;\omega_e)\Gamma(t;\mathcal{P})G_l(\omega_K;\omega_l)\)，路径影响函数\(\Gamma(t;\mathcal{P})\)在交换发射/接收后保持不变。当发射器和接收器增益模式相同时（全向或同向），交换后脉冲响应完全相同。

Versa-ELE（发射器-接收器交换）：对每个训练样本\((p_e, p_l, \omega_e, \omega_l, h(t))\)，创建交换后的新样本\((p_l, p_e, \omega_l, \omega_e, h(t))\)。将密集的麦克风位置转化为虚拟发射器位置，有效缓解发射器的稀疏性。实现为简单的数据增强，模型无关。

Versa-SSL（自监督学习）：当发射器/接收器增益模式不同时，直接交换不成立。解决方案：(1) 利用AVR模型可分离控制接收器增益模式的特性；(2) 查询声场模型获取发射器增益模式\(G_e\)；(3) 用发射器增益替换接收器增益使两者一致；(4) 强制交换前后预测的一致性作为自监督损失\(\mathcal{L} = \mathcal{L}_a(h, h^*) + \lambda \mathcal{L}_{a\text{-ssl}}(h_1, h_2)\)。

损失函数 / 训练策略¶

ELE：直接作为数据增强使用，不改变损失函数
SSL两阶段训练：第一阶段用监督音频损失\(\mathcal{L}_a\)拟合脉冲响应；第二阶段提取发射器模式后用球谐参数编码，加入一致性自监督损失
逐步增加噪声避免模型学习捷径

实验关键数据¶

主实验（模拟数据集，同增益模式AcoustiX-Same）¶

方法	Scene1-STFT	Scene1-C50	Scene2-STFT	Scene2-C50	Scene3-STFT	Scene3-C50
NN	2.87	2.84	3.54	10.71	3.29	7.42
INRAS	1.96	2.71	1.96	2.71	4.22	7.14
NAF	4.69	2.73	-	-	-	-
INRAS+ELE	1.36	1.72	1.81	1.98	1.67	2.79

互易性验证（真实数据）¶

环境	配对-Amp	非配对-Amp	配对-C50	非配对-C50
Kitchen	0.24	1.74	0.29	3.69
Conference	0.22	1.09	0.23	3.35
Office	0.23	1.54	0.18	2.49

关键发现¶

Versa-ELE模型无关，对现有神经声场模型平均C50改进34%、STFT改进31%
Versa-SSL在AVR基础上进一步改进C50 24%和STFT 48%
真实数据验证了互易性在配对条件下的成立（误差远小于非配对）
模拟数据中射线数量越多互易性越好（1000k射线时配对误差极小）

亮点与洞察¶

物理原理驱动的ML方法：将声学互易性这一基本物理原理融入ML训练，而非黑盒数据增强
通用性极强：ELE作为模型无关的数据增强可即插即用到任何声场模型
巧妙解决增益不对称：SSL通过解耦和交换增益模式，将互易性推广到非对称场景
感知用户研究确认：Versa显著提升空间音频的真实感和方向一致性

局限与展望¶

互易性在理想条件下成立，真实环境中的非线性介质和复杂材料可能导致偏差
当前仅作为结构正则化，未完全假设完美互易
泛化到未见场景（跨房间）超出当前范围
SSL需要两阶段训练增加了复杂度

评分¶

新颖性：⭐⭐⭐⭐⭐（互易性在声学ML中的首次系统应用）
技术深度：⭐⭐⭐⭐⭐（理论推导严密，方法设计精巧）
实验完整性：⭐⭐⭐⭐⭐（模拟+真实+用户研究全面覆盖）
实用价值：⭐⭐⭐⭐⭐（VR/AR沉浸式音频的直接应用）
综合评价：⭐⭐⭐⭐⭐（将物理原理优雅地融入ML训练的典范）

补充分析¶

互易性验证实验（Table 1）展示了在真实环境和模拟环境中互易性的成立程度。配对的脉冲响应在所有指标上误差均远小于未配对情况（例如厨房场景C50从3.69降至0.29，办公场景从2.49降至0.18），验证了互易性原理在实际中的可靠性。模拟中增加射线数（10k→1000k）可进一步降低配对误差。

Table 2 展示了 Versa-ELE 作为即插即用的数据增强方法对NN、Linear、DiffRIR、INRAS和NAF等多个baseline的统一改善。例如 INRAS 的 STFT 从 Scene 3 的 4.22 降至 ELE 后的 1.67。这验证了方法的模型无关性。

Versa-SSL 的两阶段管道：第一阶段拟合声学场获得发射器方向增益模式 \(G_e\)（用球谐函数编码）；第二阶段用 \(G_e\) 替换接收器增益模式实现一致性约束。推理时可替换任意HRTF实现个性化听觉。整体指标：Versa-ELE平均提升C50 34%、STFT 31%；Versa-SSL在AVR上进一步提升C50 24%、STFT 48%。