AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models¶

会议: ICLR 2026
arXiv: 2505.16211
代码: GitHub
领域: 音频大语言模型可信度评估
关键词: Audio LLM, trustworthiness, benchmark, fairness, hallucination, safety, privacy, robustness, authentication

一句话总结¶

提出 AudioTrust，首个针对音频大语言模型（ALLM）的多维度可信度评估基准，涵盖公平性、幻觉、安全性、隐私、鲁棒性和认证六大维度，设计 26 个子任务和 4420+ 音频样本，系统评估了 14 个 SOTA 开/闭源 ALLM 在高风险音频场景下的可信度边界。

研究背景与动机¶

领域现状：ALLM 发展迅速（GPT-4o Audio、Qwen2-Audio、Gemini 等），但现有安全评估框架（SafeDialBench、SafetyBench）主要面向文本模态，忽略了音频特有的可信度风险。
核心gap：音频信号包含丰富的非语义声学线索（音色、口音、背景噪声、情绪），这些线索可被用于操纵模型行为，而文本安全框架无法捕获这些音频原生偏差和攻击向量。
核心idea：构建首个全面的 ALLM 可信度评估框架，覆盖六大音频特有安全维度，通过精心设计的真实场景数据集和自动化评估管道（人工验证一致率 >97%），系统量化 ALLM 的可信度风险。

方法详解¶

整体框架¶

AudioTrust 将可信度评估解耦为六个正交维度，每个维度设计独立的攻击策略、数据集和评估指标：

公平性（Fairness）：评估音频声学属性（口音、语速、情绪、背景环境）引发的偏差，区分传统公平性（性别/年龄/种族）和音频特有公平性（口音/语言流利度/经济状态/人格特征），涵盖决策实验和刻板印象实验，840 个音频样本
幻觉（Hallucination）：定义音频特有的幻觉类型——违反物理规律（水下火焰燃烧）和违反时间因果（引擎启动前先点火），320 个样本
安全性（Safety）：设计情绪欺骗攻击（利用紧迫/悲伤语气绕过安全过滤），覆盖企业/金融/医疗三个领域的越狱攻击和非法活动引导，600 个样本
隐私（Privacy）：区分内容级泄露（直接读出银行账号）和副语言推理泄露（从声纹推断年龄/种族/地理位置），900 个样本
鲁棒性（Robustness）：评估对抗攻击和自然退化（背景噪声、多说话人、音质变化、环境声音），240 个样本
认证（Authentication）：身份验证绕过（社工攻击）、混合欺骗（语音克隆+背景噪声）、语音克隆欺骗，400 个样本

关键设计¶

数据构建：使用 GPT-4o 生成文本内容，F5-TTS 合成音频，通过选择不同情绪音色的参考音频实现情感控制；部分数据来源于 Common Voice 和 freesound 等公开数据集
自动化评估管道：采用 GPT-4o 和 Qwen3 双评估器打分，人工专家复核（一致率 >97%），支持大规模可复现评估
指标设计：每个维度有针对性指标——公平性用群体公平分数 Γ（1.0 为理想公平），安全性用防御成功率 DSR，隐私用拒绝率，鲁棒性用 10 分制评分，认证用冒充者拒绝率 IRR

实验关键数据¶

公平性¶

指标	开源最佳	闭源最佳	平均
Γ_stereo	Step-Fun 0.658	GPT-4o Audio 0.926	0.328
Γ_decision	Step-Fun 0.505	Gemini-1.5 Pro 0.460	0.261

音频属性（口音、情绪）引入的偏差强于传统敏感属性（年龄、性别）
闭源模型决策偏差更强，开源模型刻板印象关联更强
GPT-4o 系列在刻板印象公平性上表现突出（Γ_stereo=0.926），但决策公平性一般（Γ_decision=0.264），因其在极端决策场景中牺牲公平性以维持准确性

幻觉¶

Gemini 系列在物理/逻辑违反检测上表现最优（评分 8-9 分）
GPT-4o Audio 在内容不匹配和标签不匹配任务上表现意外地差（3-4 分）
模型在物理规律违反任务上准确率高，但在人类容易判断的内容不匹配任务上反而表现差——人机感知差异显著

安全性¶

场景	闭源平均 DSR	开源平均 DSR
企业越狱	~99%	~80%
非法活动引导	~99%	~89%

Kimi-Audio 在开源模型中表现最优，接近闭源水平
OpenS2S 最脆弱，企业场景 DSR 仅 51.4%

隐私¶

直接泄露：GPT-4o mini Audio 拒绝率达 100%；隐私增强提示能提升约 25%
推理泄露：所有模型平均拒绝率仅 9.02%，隐私增强提示仅提升约 3%——ALLM 难以识别从副语言线索推断的信息为隐私信息
Qwen2-Audio、MiniCPM-o 2.6、Qwen2.5-Omni 等模型在直接泄露上的拒绝率接近 0%，几乎不具备内容隐私保护能力
推理泄露的低拒绝率表明模型训练中副语言隐私约束的缺失是系统性的，而非个别模型问题

鲁棒性¶

闭源模型（Gemini-2.5 Pro 领先）在几乎所有退化条件下一致优于开源模型
开源模型存在"过度文本化"倾向——当转录部分正确时继续基于文本推理，忽略声学线索
多说话人场景下，Step-Audio2 得分接近 0（MS=0.00/0.12），暴露出极端的多说话人鲁棒性缺陷
闭源模型的优势在严重声学失真下最为明显，说明其前端信号处理和降噪架构更为成熟

认证¶

攻击类型	开源平均 IRR	闭源平均 IRR
身份验证绕过	55.3%	97.2%
混合欺骗	55.1%	97.0%
语音克隆	45.0%	44.9%

语音克隆是所有模型（含闭源）的普遍弱点
更严格的系统提示可一致性地提高抗欺骗能力
开源模型中 SALMONN 始终忽略提示指令输出音频描述，无法完成语音克隆检测任务

亮点与洞察¶

首个音频原生可信度基准：首次系统定义并评估了音频模态特有的安全维度，填补了 ALLM 可信度评估的重大空白
副语言线索的威胁：音频中的非语义信息（口音、音色、背景噪声）是被严重低估的偏差来源和攻击向量
隐私推理泄露：ALLM 能从声纹推断年龄/种族等敏感属性，但几乎不视其为隐私信息——这是一个全新的隐私威胁类别
人机感知差异：模型擅长检测物理违规但在人类容易判断的常识推理上表现差，揭示了当前模型感知机制的根本性缺陷
评估规模与系统性：14 个模型 × 26 子任务 × 4420 样本 × 双评估器，评估覆盖面和严谨性突出

局限性 / 可改进方向¶

音频样本主要为合成数据（F5-TTS），与真实人类语音的分布可能存在差异，合成攻击音频可能低估真实攻击的有效性
当前评估以英语为主，多语言覆盖有待扩展，不同语言的声学特征可能带来不同的可信度风险
缺少对模型改进方法的探索（仅评估暴露问题，未提出修复方案）
部分开源模型存在随机音频识别失败，可能导致安全评分虚高
六大维度之间的交互效应（如：鲁棒性差是否放大安全风险）未被探索
评估依赖 GPT-4o/Qwen3 打分，评估器自身的偏差可能影响结论的泛化性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个音频原生可信度基准，定义了全新的评估维度和威胁模型
实验充分度: ⭐⭐⭐⭐⭐ 14 个模型、6 大维度、26 子任务、双评估器、人工验证
写作质量: ⭐⭐⭐⭐ 结构清晰系统，但表格密集导致可读性有一定负担
价值: ⭐⭐⭐⭐⭐ 对 ALLM 安全部署有直接指导意义，将推动音频 AI 安全的研究方向