Are Deep Speech Denoising Models Robust to Adversarial Noise?¶

会议: ICLR 2026
arXiv: 2503.11627
代码: GitHub（UMass Amherst + Dolby Labs）
领域: AI Safety / 语音安全
关键词: 对抗攻击, 语音去噪, 心理声学掩蔽, DNS, 对抗鲁棒性, PGD

一句话总结¶

首次系统性评估 4 款 SOTA 深度语音去噪（DNS）模型在对抗噪声下的鲁棒性：通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声，可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish，实验覆盖多种声学条件和人类评估，同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。

研究背景与动机¶

领域现状：深度语音去噪（DNS）模型（如 Demucs、Full-SubNet+、FRCRN、MP-SENet）在 PESQ/STOI 等客观指标上取得显著进展，被广泛部署在通信设备（手机、视频会议系统、助听器）。它们在标准条件下表现优秀，但对抗鲁棒性几乎未被研究。
现有痛点：(a) 图像领域的对抗鲁棒性研究已非常成熟，但语音去噪领域几乎空白——已有工作仅覆盖单一模型或单一攻击方式，且缺乏人类评估验证；(b) DNS 模型正被用于安全关键场景（助听器、紧急通信），若可被静默攻击则构成真实威胁；(c) 传统 Lp 范数约束在音频领域不足以保证不可感知性——人耳的频率掩蔽和时间掩蔽特性需要心理声学模型来建模。
核心矛盾：DNS 模型在标准 benchmark 上性能越来越好，但是否存在微小的、人耳听不到的声音扰动就能完全摧毁它们的去噪能力？
切入角度：借鉴 MP3 编码中的心理声学模型来约束对抗扰动的不可感知性，系统评估 4 款代表性 DNS 架构在多种声学条件（SNR、混响、OTA）下的脆弱程度。
核心 idea 一句话：用心理声学掩蔽约束的 PGD 攻击生成人耳不可感知但能让 SOTA DNS 模型输出 gibberish 的对抗噪声，并通过人类评估确认攻击效果。

方法详解¶

整体框架¶

干净语音 x + 环境噪声 n 通过 DNS 模型去噪可正常输出干净语音；而干净语音 x + 环境噪声 n + 对抗扰动 delta 通过 DNS 模型去噪后输出不可理解的 gibberish。攻击目标是找到 delta 使得 (a) delta 人耳不可感知（心理声学约束），(b) DNS 输出的语音可懂度极低（STOI 趋近于 0）。

关键设计¶

攻击目标——STOI 损失最小化:
做什么：最小化 DNS 输出的短时客观可懂度（Short-Time Objective Intelligibility, STOI）
核心思路：STOI 逐帧计算干净参考与去噪输出之间的归一化相关系数再取平均，将其取负作为损失函数，通过 PGD 梯度下降优化对抗扰动 delta
设计动机：STOI 与人类语音可懂度高度相关（相比 PESQ 等音质指标，STOI 更直接反映"能不能听懂"），最小化 STOI 等价于最大化语音不可理解性
关键细节：STOI 的计算是可微分的，可以直接反向传播梯度到输入扰动
心理声学不可感知性约束:
做什么：确保对抗扰动在人耳掩蔽阈值以下，使得加了扰动后听起来和原信号一样
核心思路：使用 ISO MPEG-1 Psychoacoustic Model 2（MP3 编码使用的标准模型）计算每个频率 bin 的掩蔽阈值 T(k)，再加上 12 dB 安全偏移量以保证充分不可感知，约束扰动功率谱密度 PSD(delta, k) <= T(k) - 12dB
额外处理：考虑了前掩蔽（pre-masking, 约 2ms）和后掩蔽（post-masking, 约 200ms）的时间效应，进一步放松了时间域的约束以利用人耳的时间掩蔽特性
设计动机：传统 L-infinity 约束不符合人耳感知特性——低频处人耳更敏感，高频处容忍更大扰动；心理声学模型精确建模了频率掩蔽和时间掩蔽，比固定范数约束更贴合真实感知
PGD 优化流程:
做什么：迭代梯度投影求解约束优化问题
核心思路：标准 PGD 框架——梯度下降步 + 投影到心理声学约束集。每步更新 delta = delta - alpha * sign(grad)，然后逐频率 bin 裁剪到掩蔽阈值以下
关键细节：PGD 步数 200 步，学习率经过调优；对 Full-SubNet+ 需要梯度裁剪以处理其已知的梯度爆炸问题
初始化：从零初始化或随机初始化均可，零初始化更稳定
评估的 4 款 DNS 模型:
Demucs (Meta): 时域 U-Net + LSTM，encoder-decoder 架构，参数量最大
Full-SubNet+ (FSN+): 频域全带-子带网络，已知存在梯度爆炸问题（obfuscated gradient）
FRCRN (Alibaba): 频率递归 CRN，复数谱处理，中等参数量
MP-SENet: 同时预测幅度和相位的掩码增强网络，最新架构

评估条件¶

声学条件：5 种 SNR（70dB / 30dB / 10dB / 5dB / 0dB）乘以有无混响，外加模拟 OTA（over-the-air）传输
人类评估：(a) 转录测试——让受试者听去噪输出并尝试转录，计算 WER；(b) ABX 测试——给受试者三个音频让其辨别哪个是对抗信号，验证扰动不可感知性
客观指标：STOI、PESQ、ViSQOL、SI-SDR 全面评估

实验关键数据¶

主实验——无目标攻击效果（70dB SNR, 无混响）¶

模型	攻击前 STOI	攻击后 STOI	攻击前 PESQ	攻击后 PESQ
Demucs	0.97	0.12	3.5	1.1
FSN+	0.96	0.35	3.3	1.3
FRCRN	0.97	0.08	3.5	1.0
MP-SENet	0.96	0.15	3.4	1.1

不同声学条件下的攻击效果¶

条件	Demucs STOI	FRCRN STOI	MP-SENet STOI	说明
70dB SNR, 无混响	0.12	0.08	0.15	最理想条件
10dB SNR, 无混响	0.15	0.11	0.18	中等噪声
5dB SNR + 混响	0.20	0.14	0.22	困难条件
模拟 OTA	0.25	0.18	0.28	最接近真实场景

人类评估结果¶

转录测试：攻击后去噪输出的 WER > 95%，受试者基本无法理解任何词汇内容，确认输出确实是 gibberish
ABX 不可感知性测试：受试者辨别对抗信号与干净信号的准确率仅约 55%（接近随机猜测 50%），确认扰动在人耳听感上不可感知
12dB 安全偏移的保守设置被实验验证为有效——比仅依靠掩蔽阈值更可靠

核心发现¶

所有 4 款 DNS 模型均可被攻破：STOI 从约 0.97 降至 0.08-0.35，输出变为完全不可理解的乱码
FSN+ 看似最"鲁棒"但实为假象：其较高的攻击后 STOI（0.35 vs 其他模型 0.08-0.15）源于梯度爆炸导致 PGD 优化困难（obfuscated gradient），而不是真正的鲁棒性——这是已知的脆弱防御机制，可被自适应攻击（如 Carlini et al.）绕过
模型大小与鲁棒性无关：Demucs 参数量最大但同样脆弱；FRCRN 参数量中等但最易攻破。关键因素是梯度流的稳定性而非模型容量
攻击跨声学条件泛化：从理想条件（70dB SNR 无混响）到困难条件（低 SNR + 混响）甚至模拟 OTA 场景，攻击均持续有效，只是效果程度略有下降

负面结果（同样重要的发现）¶

攻击类型	客观指标	主观评估	原因分析
目标攻击（使输出为特定语音）	部分成功	人类无法听出目标内容	语音感知高维且非线性，低级特征匹配不等于可懂度匹配
通用扰动（一个 delta 攻击所有输入）	失败	STOI 仅轻微下降	不同语音的频谱差异过大，心理声学约束集太小无法找到通用解
跨模型迁移攻击	基本不迁移	其他模型不受影响	不同架构的梯度方向差异大，白盒攻击高度依赖特定模型

防御探索¶

高斯噪声注入防御：在 DNS 输入端加小量高斯噪声可部分缓解攻击（STOI 从 0.08 恢复到约 0.5），但代价是正常使用时音质也显著下降——部分保护但不充分
对抗训练：论文指出值得探索但因 DNS 训练成本高而未深入实验
输入变换防御：随机化输入可能有帮助，但会引入额外延迟

亮点与洞察¶

心理声学掩蔽约束的精妙运用：直接复用 MP3 编码的 Psychoacoustic Model 2 是非常工程化且有理论支撑的方案，12dB 安全偏移加上前掩蔽/后掩蔽的时间效应使得不可感知性在人类实验中得到充分验证——这比简单的 L-infinity 约束更符合音频领域的实际需求，也为后续音频对抗攻击研究树立了不可感知性约束的标杆
负面结果的诚实报告：目标攻击的主客观不一致、通用扰动和迁移攻击的失败都被详细分析和讨论，这在对抗鲁棒性论文中非常有价值——展示了这类攻击的真实能力边界，避免了过度渲染威胁
梯度爆炸不等于鲁棒性：FSN+ 的"看似鲁棒"实际是 obfuscated gradient 的典型案例，呼应了 Athalye et al. (2018) 和 Carlini (2023) 的经验教训——防御评估必须使用自适应攻击，gradient masking 不是真正的安全保障
完整的实用威胁模型：从理想条件（70dB SNR 无混响）到现实条件（5dB SNR + 混响 + OTA 传输），构成了完整的威胁评估谱系，模拟 OTA 传输是对实际部署场景的重要补充
模型规模不决定安全性：参数量更大的 Demucs 并不比小模型更安全，梯度流特性才是决定对抗鲁棒性的关键因素——这对 DNS 模型的安全设计与架构选择具有实际指导意义

评分¶

新颖性: 4/5 — 首次系统性评估多 DNS 模型的对抗鲁棒性；心理声学约束在 DNS 攻击中是新颖的应用；但 PGD 攻击框架本身不新
实验: 5/5 — 4 个模型 x 多声学条件 x 人类评估（转录 + ABX）x 详细的负面结果分析，实验设计全面严谨
写作: 5/5 — 结构清晰流畅，正面和负面结果都有充分讨论，威胁模型定义精确完整
价值: 4/5 — 为 DNS 模型安全敲响了真实的警钟，但防御方案仍停留在初步探索阶段，需要后续工作跟进