HCFD: A Benchmark for Audio Deepfake Detection in Healthcare¶

会议: ACL 2026
arXiv: 2604.17642
代码: GitHub
领域: 医学音频 / 深度伪造检测
关键词: 音频深度伪造检测, 病理语音, 神经音频编解码器, 双曲空间原型, 医疗安全

一句话总结¶

本文提出医疗场景下的编解码器伪造语音检测任务 HCFD，构建了首个包含多种临床病理条件（抑郁、阿尔茨海默、构音障碍）的编解码器伪造语音数据集 HCFK，并提出 PHOENIX-Mamba 框架——通过在双曲空间中建模多模式伪造证据原型，在英文抑郁检测上达到 97.04% 准确率。

研究背景与动机¶

领域现状：音频深度伪造检测近年发展迅速，已有 ASVspoof、CodecFake 等基准推动了该领域进步。现有检测器主要在健康人语音上训练和评估，针对神经音频编解码器（NAC）生成的伪造语音已有一定检测能力。

现有痛点：(1) 医疗场景中的语音（如远程会诊、电话筛查）面临被编解码器生成的仿造语音替代的真实风险，但现有检测器从未在病理语音上评估过；(2) 病理语音因疾病导致的韵律、发音和发声异常，会系统性地改变语音的声学特征，这些变化可能掩盖或混淆编解码器引入的微妙伪影；(3) 实验证明在健康语音上训练的 AASIST 在病理语音上检测准确率降至接近随机水平（48.62%）。

核心矛盾：编解码器伪造检测依赖于捕捉量化和带宽压缩引入的细微伪影，但病理语音的声学变异（语速异常、音质改变、清晰度下降）与这些伪影在频谱特征上高度交叠，使得检测器无法区分"疾病特征"和"伪造痕迹"。

本文目标：(1) 构建首个病理感知的编解码器伪造语音数据集 HCFK；(2) 系统评估现有检测器在医疗语音上的失败模式；(3) 设计专门针对病理语音异质性的检测框架。

切入角度：作者观察到编解码器伪影在病理语音中可能以多种异质模式出现（不同疾病条件、不同编解码器家族），单一向量表示无法捕捉这种多模态分布。因此需要一种能够保留多个局部证据并建模异质伪造模式的方法。

核心 idea：用双曲空间中的多原型聚类来建模编解码器伪造语音的异质模式——保留多个局部证据向量，通过 Poincaré 球上的指数映射和原型距离实现自动模式发现和分类。

方法详解¶

整体框架¶

PHOENIX-Mamba 的流程：(1) 输入语音通过预训练编码器（如 PaSST）提取特征序列 \(X \in \mathbb{R}^{T \times D}\)；(2) 经 adapter 映射到低维空间 \(U\)；(3) Mamba 状态空间模型进行长程时序建模得到 \(Z\)；(4) 可学习池化将 \(Z\) 压缩为 \(M\) 个证据向量 \(E\)；(5) 通过指数映射将证据向量嵌入 Poincaré 球；(6) 在双曲空间中通过与正/负类原型的测地距离计算分类得分。

关键设计¶

多证据池化 (Multi-Evidence Pooling):
- 功能：将长序列表示压缩为 \(M\) 个局部证据向量，而非单一全局向量
- 核心思路：使用可学习的注意力权重对时序特征加权求和，每个证据向量 \(e_m = \sum_t a_{m,t} z_t\) 关注序列的不同局部区域。权重由可微分的打分机制生成
- 设计动机：编解码器伪影在病理语音中分布不均匀且稀疏，单一池化向量会丢失关键的局部线索。多证据设计让模型能保留多个不同位置的鉴别性特征
双曲空间原型推理 (Hyperbolic Prototype Reasoning):
- 功能：在 Poincaré 球上用多个正类原型和一个负类原型进行基于距离的分类
- 核心思路：每个证据向量通过指数映射 \(h_m = \text{Exp}_0^c(We_m)\) 投射到 Poincaré 球。参数化 \(K\) 个正类（伪造）原型和 1 个负类（真实）原型。通过计算每个证据到各原型的测地距离，用 temperature-controlled softmax 得到软分配 \(q_{m,k}\)，再通过 log-sum-exp 聚合得到实例级别的正/负类得分
- 设计动机：不同编解码器家族和病理条件会产生异质的伪造模式，欧氏空间中单一决策边界难以有效分离。双曲空间的指数级体积增长适合建模树状层次化的类结构，多原型设计允许模型自动发现伪造类内的子类别
几何感知正则化损失:
- 功能：引导原型形成紧凑且分散的聚类结构
- 核心思路：总损失 \(\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{cluster} + \beta \mathcal{L}_{sep}\)。聚类损失拉近证据点到其分配的正类原型，并用熵项控制分配锐度；分离损失推远不同正类原型之间以及正负类原型之间的距离
- 设计动机：防止原型坍缩（所有原型收敛到同一点）和保持模式多样性。仅用分类损失训练，原型可能退化为单模式解

损失函数 / 训练策略¶

使用 AdamW 优化器训练 20 个 epoch，batch size 32，权重衰减 0.01，梯度裁剪 1.0。上游 PTM 参数冻结，仅训练 adapter、Mamba 骨干和原型参数，可训练参数量为 2M-5M。评估指标包括准确率、宏 F1 和 EER。

实验关键数据¶

主实验¶

方法	英文-抑郁 Acc	英文-阿尔茨海默 Acc	英文-构音障碍 Acc	中文-抑郁 Acc
AASIST (CodecFake训练)	48.62	34.19	36.71	45.81
AASIST (域内训练)	60.84	52.14	56.07	58.06
PaSST+CNN	78.98	69.27	71.03	75.69
PHOENIX-Mamba (PaSST)	97.04	96.73	96.57	94.41

消融实验¶

配置	英文-抑郁 Acc	英文-阿尔茨海默 Acc	说明
Full PHOENIX-Mamba	97.04	96.73	完整模型
CNN Head (无Mamba)	82.26	75.52	无时序建模
Single evidence (M=1)	73.51	55.03	单证据退化严重
PHOENIX-Euc (欧氏)	83.62	79.48	去掉双曲几何

关键发现¶

从健康语音迁移到病理语音存在巨大的领域偏移，AASIST 在 CodecFake 上训练后在 HCFK 上接近随机猜测
多证据池化贡献最大——去掉后（M=1）阿尔茨海默检测从 96.73% 暴跌到 55.03%，说明病理语音中伪造线索的分布极不均匀
PaSST 作为上游编码器始终优于 WavLM、Wav2vec2 等语音 SSL 模型，可能因为其 patch-based 频谱时间表示更适合捕捉编解码器伪影
跨病理条件迁移实验显示，在抑郁+构音障碍上训练后迁移到阿尔茨海默可达 98.53% Acc

亮点与洞察¶

将编解码器伪造检测拓展到医疗场景是一个有实际价值的新方向——远程医疗和语音生物认证的普及使得这一威胁越来越真实
多证据+双曲原型的组合巧妙地解决了"异质伪造模式"问题——比强行在欧氏空间中用单一分类器好得多
跨病理条件的迁移结果令人意外地好（98.53%），暗示编解码器伪影的核心特征可能是病理无关的，这为实际部署提供了希望

局限与展望¶

仅涵盖三种临床条件和两种语言，覆盖面有限
仅考虑编解码器重合成攻击，未涉及 TTS/VC/扩散模型等其他伪造手段
未研究开放集检测和不确定性估计
HCFK 的构建依赖于现有临床语音数据集的可用性，隐私和伦理约束可能限制扩展

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性研究医疗场景下的编解码器伪造检测，问题定义有前瞻性
实验充分度: ⭐⭐⭐⭐ 覆盖三种疾病、两种语言、七种编解码器，消融充分，但模型规模有限
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述详细，但论文较长
价值: ⭐⭐⭐⭐ 医疗语音安全是重要问题，但实际部署仍需更多验证