Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models¶

会议: ACL 2025
arXiv: 2412.05167
领域: LLM NLP
关键词: 音频对话理解, 大规模音频语言模型, 基准测试, 歧义处理, 多语言对话

一句话总结¶

提出 ADU-Bench，一个包含 20,000+ 开放式音频对话的综合基准，覆盖 3 种通用场景、12 项技能、9 种语言和 4 类歧义处理，首次系统评估大型音频语言模型（LALM）的音频对话理解能力，在 16 个模型上的实验揭示了现有 LALM 在数学符号、角色扮演、多语言和语音歧义处理上的显著不足。

研究背景与动机¶

GPT-4o 等模型开启了直接语音交互时代，LALM 可与人类进行口语对话
然而，目前缺乏全面的基准来评估 LALM 的开放式音频对话理解能力
现有基准主要关注：(1) 基础音频任务（如 ASR、情感识别）；(2) 基于文本指令的音频问答；(3) 仅覆盖通用场景的音频对话
关键缺口：缺少对技能型对话、多语言对话、以及语音歧义（同一句话因语调不同传达不同含义）的评估
核心贡献：首次提出对音频对话中歧义处理的系统评估——如 "Really!?" 用不同语调表达不同意图

方法详解¶

整体框架¶

ADU-Bench 由 4 个子数据集组成，共 20,715 条开放式音频对话（含 8,000+ 真实录音）：

ADU-General（12,000 条）：3 种通用场景
帮助性问题（搜索引擎类查询）
日常问题（生活随意对话）
日常陈述（无丰富上下文的日常表述）
ADU-Skill（3,725 条）：12 个技能领域
数学、物理、化学、生物、计算机科学、编程、法律、金融、常识、写作、角色扮演、医学
ADU-Multilingual（3,600 条）：9 种语言
阿拉伯语、中文、英语、法语、德语、日语、韩语、俄语、西班牙语
ADU-Ambiguity（1,390 条）：4 类语音歧义
语调歧义：同句不同语调传达不同含义
停顿歧义：停顿位置改变句意
同音歧义：发音相同/相近但含义不同的词
重复歧义：同词多次出现导致混淆

关键设计¶

评估方法：LALM 接收音频输入 → 生成文本响应 → GPT-4 评分（0-10 分）→ 交换参考答案和响应位置重新评分以消除位置偏差 → 取平均分
多评估器验证：除 GPT-4 外还使用 LLaMA-3-70B-Instruct 和 Qwen-2-72B-Instruct，验证评估一致性
参考答案生成：由 GPT-4 根据音频文本转录生成，歧义类型使用人工标注
数据来源多样：Alpaca、NQ-Bench、WebGLM、GSM8K、MATH、MMLU、HotpotQA 等，经 GPT-4 和人工双重过滤

实验关键数据¶

主实验¶

16 个 LALM 的总体评分： | 模型 | 参数量 | General | Skill | Multilingual | Ambiguity | 平均 | |------|--------|---------|-------|-------------|-----------|------| | PandaGPT | 7B | 1.02 | 0.98 | 0.98 | 0.50 | 0.87 | | Qwen-Audio-Chat | 7B | 2.34 | 2.46 | 1.58 | 1.93 | 2.08 | | BLSP | 7B | 4.66 | 4.49 | 2.89 | 3.37 | 3.85 | | Step-Audio-Chat | 130B | 6.37 | 7.31 | 2.45 | 4.72 | 5.21 | | Whisper+LLaMA-3 | 8B | 6.94 | 7.88 | 6.27 | 4.92 | 6.50 | | Whisper+LLaMA-3 | 70B | 7.26 | 8.03 | 6.12 | 5.13 | 6.64 | | Whisper+GPT-4 | — | 8.42 | 8.62 | 8.07 | 5.54 | 7.66 | | GPT-4o | — | 8.64 | 8.97 | 8.16 | 6.87 | 8.16 |

GPT-4 评估与人工评估对齐度：配对偏好一致性 > 85%

关键发现¶

端到端 LALM vs 级联 LALM：级联方案（Whisper + LLM）普遍优于端到端 LALM，GPT-4o 是唯一超越级联方案的端到端模型
技能领域差异显著：
强项：生物、计算机科学、法律、金融、写作、医学（语言理解为核心）
弱项：数学、物理、化学、编程（涉及公式和符号）+ 常识、角色扮演（需理解人类行为）
多语言能力悬殊：英语表现最佳，其次是印欧语系语言（德、西、法、俄），亚洲和阿拉伯语言表现差
歧义处理是最大短板：
重复歧义相对容易（不涉及语音特征）
语调/停顿/同音歧义极难——即使 GPT-4o 在 pause-based 仅 5.22，homophone-based 仅 6.05
GPT-4o 倾向于生成"涵盖多种可能解释"的回答，无法精确区分不同语音传达的含义
模型规模效应：总体上更大模型更好，但存在领域特异性——LLaMA-3-8B 在常识和非印欧语言上优于 70B
合成音频可替代真实音频进行评估，两者性能差异不显著

亮点与洞察¶

歧义评估的首创性：首次系统评估 LALM 对语音歧义的处理能力，这是此前完全被忽视的维度
数据集设计全面：4 个子集覆盖从通用到技能、从多语言到歧义处理的完整评估矩阵
评估方法严谨：双重评分消除位置偏差 + 多评估器交叉验证 + 人工评估对齐检验
揭示的核心矛盾：LALM 的"听"和"理解"是分离的——它们能转录语音但无法真正感知语调变化所携带的意图信息
对 GPT-4o 的分析深刻：表现最佳但仍在歧义上挣扎，倾向于"两头押注"而非精确理解

局限性¶

评估的 LALM 数量受限于可用代码和模型权重
GPT-4 作为评估器可能存在自身偏见（尽管与人工评估高度对齐，但仍非完美替代）
多语言数据集通过 GPT-4 翻译构建，翻译质量可能影响部分语言的评估准确性
歧义数据集规模最小（1,390 条），可能不足以细粒度区分模型能力
仅评估理解能力，未涉及音频生成质量评估

评分¶

创新性: ★★★★☆ — 歧义评估首创，但基准构建方法本身较标准
实验质量: ★★★★★ — 16 个模型的全面评测，多维度分析，评估方法严谨
实用价值: ★★★★★ — 填补 LALM 评估空白，为音频对话模型开发提供方向
写作质量: ★★★★☆ — 结构清晰，分析深入，但部分描述较冗长