Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps¶

会议: ACL 2026
arXiv: 2604.19565
代码: 无
领域: Medical Imaging / Speech Processing
关键词: 语音大模型、幻觉检测、注意力图、推理时检测、轻量级分类器

一句话总结¶

提出四种基于音频注意力的指标（AudioRatio、AudioConsistency、AudioEntropy、TextEntropy），训练轻量级逻辑回归分类器在推理时检测语音大模型（SpeechLLM）的幻觉，在域内数据上 PR-AUC 提升最高达 +0.23。

研究背景与动机¶

领域现状：语音大模型（SpeechLLM）在语音识别（ASR）和语音翻译（S2TT）等任务中取得了显著进展，但仍会产生幻觉——流畅但与输入音频不匹配的内容。

现有痛点：（1）现有幻觉检测方法依赖金标准输出进行比较，成本高昂且在部署场景中不可行；（2）为文本 LLM 开发的幻觉检测方法无法直接捕捉音频特有的信号，因为音频表征远长于文本，且输入帧与输出 token 之间的对齐关系不同于文本到文本的生成。

核心矛盾：需要在推理时（无参考文本）检测幻觉，但音频模态的注意力动态与文本模态本质不同，现有方法不能直接迁移。

本文目标：利用 SpeechLLM 内部的注意力模式开发轻量级推理时幻觉检测器。

切入角度：观察到模型生成幻觉时注意力会呈现病理性模式——对角线注意力结构退化、注意力回退到音频输入的起始位置。

核心 idea：设计四种针对音频的注意力指标捕捉幻觉相关的注意力模式，训练逻辑回归分类器实现高效检测。

方法详解¶

整体框架¶

对 SpeechLLM（Qwen-2-Audio 和 Voxtral-3B）进行推理，在每个解码步骤提取注意力权重，计算四种音频注意力指标，将其作为特征向量训练逻辑回归分类器来检测幻觉。

关键设计¶

AudioRatio：
- 功能：衡量注意力分配在音频输入 vs 自回归文本前缀之间的比例
- 核心思路：\(AR^{l,h}_t = \frac{A^{l,h}_t(\text{Audio})}{A^{l,h}_t(\text{Audio}) + A^{l,h}_t(\text{ART})}\)，类似 Lookback-Lens 但限制输入侧仅为音频 token
- 设计动机：幻觉生成时模型可能过度关注自回归前缀而非输入音频
AudioConsistency：
- 功能：衡量连续解码步骤间音频注意力向量的一致性
- 核心思路：计算相邻解码步骤音频注意力向量的 Pearson 相关系数，捕捉注意力回退行为
- 设计动机：幻觉时模型注意力常坍缩到音频起始位置，导致连续注意力分布高度相似
AudioEntropy / TextEntropy：
- 功能：分别衡量音频/文本注意力权重的熵
- 核心思路：对注意力权重重新归一化后计算熵，\(AE^{l,h}_t = H(\frac{a^{l,h,t}_{1:N}}{\sum_i a^{l,h,t}_i})\)
- 设计动机：AudioEntropy 捕捉音频输入上的不确定性，适用于没有清晰对角线模式的注意力头；TextEntropy 捕捉文本侧不确定性

损失函数 / 训练策略¶

使用逻辑回归分类器，L2 正则化用于特征排序，L1 正则化用于特征剪枝（Stable Features 变体）。训练数据为 VoxPopuli 训练集 40,000 样本（4 种语言各 10,000）。幻觉标签通过 WER + SHS > 0.7 的阈值自动生成，人工标注子集校准阈值。

实验关键数据¶

主实验（Voxtral-3B，VoxPopuli 域内）¶

方法	F1	PR-AUC	PRR@10%
Mean Entropy (baseline)	0.42	0.44	0.43
Perplexity (baseline)	0.40	0.41	0.40
AudioRatio Only (LR)	0.64	0.67	0.56
Combined (LR)	0.64	0.69	0.56

Qwen-2-Audio 结果¶

数据集	方法	F1	PR-AUC
VoxPopuli	Mean Entropy	0.50	0.49
VoxPopuli	AudioRatio (LR)	0.56	0.56
VoxPopuli	Combined (LR)	0.55	0.58
CALLHOME	Mean Entropy	0.58	0.67
CALLHOME	Combined (LR)	0.41	0.61

消融实验¶

配置	关键指标	说明
全部特征 (4096)	PR-AUC 0.58	特征过多可能过拟合
AudioRatio Only (1024)	PR-AUC 0.56	单指标表现接近最优
Top 75 (300 特征)	PR-AUC 0.58	少量头即可达到最优域内性能
Stable Features	域外泛化更好	~100 个注意力头效果最优

关键发现¶

注意力特征在域内数据上显著优于不确定性估计基线，Voxtral-3B 上 PR-AUC 提升 +0.23
约 100 个注意力头即可实现强检测性能，且域外泛化优于使用全部头
效果依赖于模型：Voxtral-3B 上改进比 Qwen-2-Audio 更显著
域外（CALLHOME 噪声数据）泛化是主要挑战，特征选择可帮助缓解
幻觉率在干净数据（VoxPopuli）上很低（1-6%），在噪声数据（CALLHOME）上高达 20%

亮点与洞察¶

首次将注意力基幻觉检测从文本 LLM 扩展到语音 LLM，设计了音频特有的指标
轻量级方法（逻辑回归）可在推理时实时部署，可用于在线过滤或离线分析
可视化清晰展示了幻觉时注意力的病理性模式：对角线退化、注意力回退到音频起始
发现特征选择不仅减少计算量，还能提升域外泛化能力

局限与展望¶

效果高度依赖于模型和任务，需要针对特定任务训练
域外泛化仍是主要瓶颈，特别是从干净数据到噪声数据
幻觉标签依赖自动阈值（WER + SHS > 0.7），可能引入噪声
未来方向：与不确定性估计结合、探索更多 SpeechLLM 架构、端到端训练

评分¶

新颖性: ⭐⭐⭐ 将已有文本幻觉检测思路适配到语音模态，创新在于指标设计
实验充分度: ⭐⭐⭐⭐ 两个模型、两个任务、多数据集评估，消融详尽
写作质量: ⭐⭐⭐⭐ 方法清晰，可视化直观，实验设计合理
价值: ⭐⭐⭐ 实用性强但适用范围较窄，依赖于特定模型和任务