MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark¶
会议: ICLR 2026
arXiv: 2506.04779
代码: https://huggingface.co/datasets/ddwang2000/MMSU
领域: 多模态VLM
关键词: 语音理解, SpeechLLM, 语言学基准, 多任务评测, 感知与推理
一句话总结¶
提出 MMSU(5000 条音频 QA、47 个任务),首个系统融合语言学理论的语音理解与推理基准,评测 22 个 SpeechLLM,发现现有模型在音韵感知和复杂推理上仍存在显著差距。
研究背景与动机¶
-
领域现状: SpeechLLM(如 Qwen-Audio、Kimi-Audio、Gemini 等)已具备处理音频输入的能力,在 ASR、音频理解等任务上表现优异。然而,这些模型在细粒度语音感知和复杂推理上的能力尚未被系统评估。
-
现有痛点: 现有语音基准存在三大不足:
- 覆盖面窄: 主要聚焦于语义级任务,忽略了日常语音中常见的非语言现象(停顿、讽刺、自我纠正、韵律变化等)
- 数据真实性不足: 大量依赖 TTS 合成语音,缺乏人类真实语音的声学多样性
-
缺乏语言学理论指导: 评估设计未考虑语音学、韵律学、修辞学等基础语言学原理,导致评估存在盲区
-
核心矛盾: 真正的语音理解不仅要理解"说了什么"(语义),还需理解"怎么说的"(韵律、情感)和"真正想表达什么"(语用),但现有基准无法评测后两者。
-
本文要解决什么? 构建一个全面、有语言学理论支撑的语音理解评测框架,系统评估 SpeechLLM 在感知和推理两个维度的能力。
-
切入角度: 以语言学理论体系(语音学、韵律学、修辞学、句法学、语义学、副语言学)为基础,自上而下设计任务分类体系。
-
核心idea一句话: 将语言学理论系统融入语音基准设计,创建跨 47 个任务的综合评测框架,揭示 SpeechLLM 在音韵感知和推理上的关键短板。
方法详解¶
整体框架¶
MMSU 包含 5000 条专家标注的多选题(MCQ),覆盖 47 个任务。采用三级层次结构组织: - 第一层: 感知(Perception, 24 任务) vs 推理(Reasoning, 23 任务) - 第二层: 语言学(Linguistics) vs 副语言学(Paralinguistics) - 第三层: 语义(Semantics)/音韵(Phonology)/说话人特征(Speaker Traits)/说话风格(Speaking Style)
关键设计¶
- 细粒度声学特征覆盖:
- 做什么: 覆盖非语言声音(哭泣、咳嗽)、口音(印度、英国)、情感状态、韵律特征(重音、延长音、停顿)、语调变化等
- 核心思路: 基于语音学各子领域理论,为每个维度设计专门任务
-
设计动机: 填补现有基准对声学特征覆盖不足的空白
-
高质量数据保证:
- 做什么: 优先使用真实语音数据,辅以专业配音演员录制和少量多说话人补充
- 核心思路: 四阶段流程——语言学框架设计→问题收集与选项增强→音频采集→人工审核(10 名标注员多轮审核)
-
设计动机: TTS 合成语音无法捕捉人类语音的微妙声学特征
-
语言学理论系统融入:
- 做什么: 首次设计包含绕口令、讽刺检测、同音异义推理、语调推理、对联匹配等语言学任务
- 核心思路: 从语音学、韵律学、修辞学、句法学、语义学、副语言学六个子领域出发设计任务
- 设计动机: 使评测不再停留在表层语义,而是深入语言学多层面理解
损失函数 / 训练策略¶
不适用(本文为 benchmark 工作)。评测采用统一指令提示,选项随机排序避免位置偏差。
实验关键数据¶
主实验¶
| 模型 | 大小 | 感知 Avg | 推理 Avg | 整体 Avg |
|---|---|---|---|---|
| Human | - | 91.24 | 86.77 | 89.72 |
| Gemini-2.0-Flash | - | 57.51 | 68.15 | 62.63 |
| GPT-4o-Audio | - | 57.30 | 66.62 | 61.67 |
| Qwen2.5-Omni-7B | 7B | 53.26 | 69.99 | 61.25 |
| Kimi-Audio | 7B | 43.52 | 76.03 | 59.28 |
| Qwen2.5-Omni-3B | 3B | 42.37 | 72.76 | 56.83 |
| MiniCPM-O | 8.6B | 40.54 | 73.57 | 56.53 |
| MERaLiON | 10B | 35.74 | 73.68 | 54.10 |
| SALMONN | 7B | 29.83 | 30.04 | 30.01 |
| Random Guess | - | 25.02 | 25.37 | 25.37 |
消融实验¶
| 维度 | 最佳模型 | 准确率 | 人类表现 | 差距 |
|---|---|---|---|---|
| 感知-语义 | Kimi-Audio | 57.64% | 87.10% | -29.5 |
| 感知-音韵 | Qwen2-Audio | 44.93% | 94.32% | -49.4 |
| 感知-副语言 | Qwen2.5-Omni-3B | 39.19% | 92.88% | -53.7 |
| 推理-语义 | Qwen2.5-Omni-7B | 81.52% | 82.16% | -0.6 |
| 推理-音韵 | Qwen2.5-Omni-7B | 82.39% | 87.60% | -5.2 |
关键发现¶
- 人机差距巨大: 最佳模型整体准确率 62.63%,人类 89.72%,差距 27 个点
- 音韵感知是最大短板: 感知-音韵维度上最佳模型仅 44.93%,与人类差距近 50 个点
- 推理强于感知: 模型在语义推理上接近人类水平,但在需要整合声学线索的感知任务上表现差
- 闭源模型优势不明显: Gemini/GPT-4o 仅略优于 Qwen2.5-Omni-7B,说明感知能力未随规模显著提升
- 端到端模型 > 级联模型: 直接处理音频的模型表现优于基于 ASR 转写再理解的方案
亮点与洞察¶
- 首个系统融合语言学理论的语音理解基准,任务设计有学科深度
- 47 个任务覆盖面极广,相比此前最大的 MMAU(27 任务)提升明显
- 揭示了一个重要洞察:SpeechLLM 的推理能力已接近人类,但感知能力(尤其是音韵感知)严重落后
- 数据质量高:真实语音为主、专家审核、多轮标注
局限性 / 可改进方向¶
- 目前仅支持英语,多语言覆盖有待扩展
- 评测格式为四选一 MCQ,可能无法完全反映开放式语音理解能力
- 部分任务样本量有限(每任务约 100 条),统计显著性需关注
- 未纳入多轮对话场景下的语音理解能力评测
- 可以进一步分析模型错误的类型和模式,指导针对性改进
相关工作与启发¶
- 与 VoiceBench、MMAU、AIR-Bench 等语音基准互补:MMSU 首次覆盖韵律、语调、修辞等维度
- "感知≠推理"的发现为 SpeechLLM 训练策略提供重要方向:应重点提升声学感知能力
- 为多模态 VLM 评测提供新范式:以学科理论指导 benchmark 设计,避免"有什么评什么"的被动模式
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统引入语言学理论指导语音基准设计
- 实验充分度: ⭐⭐⭐⭐⭐ 22 个模型、47 个任务、含人类基线,评测极为全面
- 写作质量: ⭐⭐⭐⭐ 层次清晰,任务分类体系完善
- 价值: ⭐⭐⭐⭐⭐ 揭示 SpeechLLM 关键瓶颈,为社区提供重要评测基础设施