HCFD: A Benchmark for Audio Deepfake Detection in Healthcare¶
会议: ACL 2026
arXiv: 2604.17642
代码: GitHub
领域: 医学音频 / 深度伪造检测
关键词: 音频深度伪造检测, 病理语音, 神经音频编解码器, 双曲空间原型, 医疗安全
一句话总结¶
本文提出医疗场景下的编解码器伪造语音检测任务 HCFD,构建了首个包含多种临床病理条件(抑郁、阿尔茨海默、构音障碍)的编解码器伪造语音数据集 HCFK,并提出 PHOENIX-Mamba 框架——通过在双曲空间中建模多模式伪造证据原型,在英文抑郁检测上达到 97.04% 准确率。
研究背景与动机¶
领域现状:音频深度伪造检测近年发展迅速,已有 ASVspoof、CodecFake 等基准推动了该领域进步。现有检测器主要在健康人语音上训练和评估,针对神经音频编解码器(NAC)生成的伪造语音已有一定检测能力。
现有痛点:(1) 医疗场景中的语音(如远程会诊、电话筛查)面临被编解码器生成的仿造语音替代的真实风险,但现有检测器从未在病理语音上评估过;(2) 病理语音因疾病导致的韵律、发音和发声异常,会系统性地改变语音的声学特征,这些变化可能掩盖或混淆编解码器引入的微妙伪影;(3) 实验证明在健康语音上训练的 AASIST 在病理语音上检测准确率降至接近随机水平(48.62%)。
核心矛盾:编解码器伪造检测依赖于捕捉量化和带宽压缩引入的细微伪影,但病理语音的声学变异(语速异常、音质改变、清晰度下降)与这些伪影在频谱特征上高度交叠,使得检测器无法区分"疾病特征"和"伪造痕迹"。
本文目标:(1) 构建首个病理感知的编解码器伪造语音数据集 HCFK;(2) 系统评估现有检测器在医疗语音上的失败模式;(3) 设计专门针对病理语音异质性的检测框架。
切入角度:作者观察到编解码器伪影在病理语音中可能以多种异质模式出现(不同疾病条件、不同编解码器家族),单一向量表示无法捕捉这种多模态分布。因此需要一种能够保留多个局部证据并建模异质伪造模式的方法。
核心 idea:用双曲空间中的多原型聚类来建模编解码器伪造语音的异质模式——保留多个局部证据向量,通过 Poincaré 球上的指数映射和原型距离实现自动模式发现和分类。
方法详解¶
整体框架¶
PHOENIX-Mamba 的流程:(1) 输入语音通过预训练编码器(如 PaSST)提取特征序列 \(X \in \mathbb{R}^{T \times D}\);(2) 经 adapter 映射到低维空间 \(U\);(3) Mamba 状态空间模型进行长程时序建模得到 \(Z\);(4) 可学习池化将 \(Z\) 压缩为 \(M\) 个证据向量 \(E\);(5) 通过指数映射将证据向量嵌入 Poincaré 球;(6) 在双曲空间中通过与正/负类原型的测地距离计算分类得分。
关键设计¶
-
多证据池化 (Multi-Evidence Pooling):
- 功能:将长序列表示压缩为 \(M\) 个局部证据向量,而非单一全局向量
- 核心思路:使用可学习的注意力权重对时序特征加权求和,每个证据向量 \(e_m = \sum_t a_{m,t} z_t\) 关注序列的不同局部区域。权重由可微分的打分机制生成
- 设计动机:编解码器伪影在病理语音中分布不均匀且稀疏,单一池化向量会丢失关键的局部线索。多证据设计让模型能保留多个不同位置的鉴别性特征
-
双曲空间原型推理 (Hyperbolic Prototype Reasoning):
- 功能:在 Poincaré 球上用多个正类原型和一个负类原型进行基于距离的分类
- 核心思路:每个证据向量通过指数映射 \(h_m = \text{Exp}_0^c(We_m)\) 投射到 Poincaré 球。参数化 \(K\) 个正类(伪造)原型和 1 个负类(真实)原型。通过计算每个证据到各原型的测地距离,用 temperature-controlled softmax 得到软分配 \(q_{m,k}\),再通过 log-sum-exp 聚合得到实例级别的正/负类得分
- 设计动机:不同编解码器家族和病理条件会产生异质的伪造模式,欧氏空间中单一决策边界难以有效分离。双曲空间的指数级体积增长适合建模树状层次化的类结构,多原型设计允许模型自动发现伪造类内的子类别
-
几何感知正则化损失:
- 功能:引导原型形成紧凑且分散的聚类结构
- 核心思路:总损失 \(\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{cluster} + \beta \mathcal{L}_{sep}\)。聚类损失拉近证据点到其分配的正类原型,并用熵项控制分配锐度;分离损失推远不同正类原型之间以及正负类原型之间的距离
- 设计动机:防止原型坍缩(所有原型收敛到同一点)和保持模式多样性。仅用分类损失训练,原型可能退化为单模式解
损失函数 / 训练策略¶
使用 AdamW 优化器训练 20 个 epoch,batch size 32,权重衰减 0.01,梯度裁剪 1.0。上游 PTM 参数冻结,仅训练 adapter、Mamba 骨干和原型参数,可训练参数量为 2M-5M。评估指标包括准确率、宏 F1 和 EER。
实验关键数据¶
主实验¶
| 方法 | 英文-抑郁 Acc | 英文-阿尔茨海默 Acc | 英文-构音障碍 Acc | 中文-抑郁 Acc |
|---|---|---|---|---|
| AASIST (CodecFake训练) | 48.62 | 34.19 | 36.71 | 45.81 |
| AASIST (域内训练) | 60.84 | 52.14 | 56.07 | 58.06 |
| PaSST+CNN | 78.98 | 69.27 | 71.03 | 75.69 |
| PHOENIX-Mamba (PaSST) | 97.04 | 96.73 | 96.57 | 94.41 |
消融实验¶
| 配置 | 英文-抑郁 Acc | 英文-阿尔茨海默 Acc | 说明 |
|---|---|---|---|
| Full PHOENIX-Mamba | 97.04 | 96.73 | 完整模型 |
| CNN Head (无Mamba) | 82.26 | 75.52 | 无时序建模 |
| Single evidence (M=1) | 73.51 | 55.03 | 单证据退化严重 |
| PHOENIX-Euc (欧氏) | 83.62 | 79.48 | 去掉双曲几何 |
关键发现¶
- 从健康语音迁移到病理语音存在巨大的领域偏移,AASIST 在 CodecFake 上训练后在 HCFK 上接近随机猜测
- 多证据池化贡献最大——去掉后(M=1)阿尔茨海默检测从 96.73% 暴跌到 55.03%,说明病理语音中伪造线索的分布极不均匀
- PaSST 作为上游编码器始终优于 WavLM、Wav2vec2 等语音 SSL 模型,可能因为其 patch-based 频谱时间表示更适合捕捉编解码器伪影
- 跨病理条件迁移实验显示,在抑郁+构音障碍上训练后迁移到阿尔茨海默可达 98.53% Acc
亮点与洞察¶
- 将编解码器伪造检测拓展到医疗场景是一个有实际价值的新方向——远程医疗和语音生物认证的普及使得这一威胁越来越真实
- 多证据+双曲原型的组合巧妙地解决了"异质伪造模式"问题——比强行在欧氏空间中用单一分类器好得多
- 跨病理条件的迁移结果令人意外地好(98.53%),暗示编解码器伪影的核心特征可能是病理无关的,这为实际部署提供了希望
局限与展望¶
- 仅涵盖三种临床条件和两种语言,覆盖面有限
- 仅考虑编解码器重合成攻击,未涉及 TTS/VC/扩散模型等其他伪造手段
- 未研究开放集检测和不确定性估计
- HCFK 的构建依赖于现有临床语音数据集的可用性,隐私和伦理约束可能限制扩展
相关工作与启发¶
- vs CodecFake (Wu et al.): CodecFake 在健康语音上构建基准,本文发现其训练的检测器在病理语音上完全失效,证明了领域特定基准的必要性
- vs AASIST: AASIST 使用图注意力网络建模频谱-时间关系,但其单向量表示无法处理病理语音的异质性;PHOENIX-Mamba 的多证据+多原型设计针对性解决此问题
- vs SASTNet: SASTNet 尝试统一语义和声学表示进行检测,但仍在健康语音评估;本文关注的是病理语音这一更具挑战性的场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性研究医疗场景下的编解码器伪造检测,问题定义有前瞻性
- 实验充分度: ⭐⭐⭐⭐ 覆盖三种疾病、两种语言、七种编解码器,消融充分,但模型规模有限
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细,但论文较长
- 价值: ⭐⭐⭐⭐ 医疗语音安全是重要问题,但实际部署仍需更多验证
相关论文¶
- [ACL 2026] Efficient and Effective Internal Memory Retrieval for LLM-Based Healthcare Prediction
- [ICLR 2026] Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?
- [ACL 2026] Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling
- [ICLR 2026] Moving Beyond Medical Exams: A Clinician-Annotated Fairness Dataset of Real-World Tasks and Ambiguity in Mental Healthcare
- [CVPR 2026] LUMINA: A Multi-Vendor Mammography Benchmark with Energy Harmonization Protocol