跳转至

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

会议: ICLR 2026
arXiv: 2506.04779
代码: https://huggingface.co/datasets/ddwang2000/MMSU
领域: 多模态VLM
关键词: 语音理解, SpeechLLM, 语言学基准, 多任务评测, 感知与推理

一句话总结

提出 MMSU(5000 条音频 QA、47 个任务),首个系统融合语言学理论的语音理解与推理基准,评测 22 个 SpeechLLM,发现现有模型在音韵感知和复杂推理上仍存在显著差距。

研究背景与动机

  1. 领域现状: SpeechLLM(如 Qwen-Audio、Kimi-Audio、Gemini 等)已具备处理音频输入的能力,在 ASR、音频理解等任务上表现优异。然而,这些模型在细粒度语音感知和复杂推理上的能力尚未被系统评估。

  2. 现有痛点: 现有语音基准存在三大不足:

  3. 覆盖面窄: 主要聚焦于语义级任务,忽略了日常语音中常见的非语言现象(停顿、讽刺、自我纠正、韵律变化等)
  4. 数据真实性不足: 大量依赖 TTS 合成语音,缺乏人类真实语音的声学多样性
  5. 缺乏语言学理论指导: 评估设计未考虑语音学、韵律学、修辞学等基础语言学原理,导致评估存在盲区

  6. 核心矛盾: 真正的语音理解不仅要理解"说了什么"(语义),还需理解"怎么说的"(韵律、情感)和"真正想表达什么"(语用),但现有基准无法评测后两者。

  7. 本文要解决什么? 构建一个全面、有语言学理论支撑的语音理解评测框架,系统评估 SpeechLLM 在感知和推理两个维度的能力。

  8. 切入角度: 以语言学理论体系(语音学、韵律学、修辞学、句法学、语义学、副语言学)为基础,自上而下设计任务分类体系。

  9. 核心idea一句话: 将语言学理论系统融入语音基准设计,创建跨 47 个任务的综合评测框架,揭示 SpeechLLM 在音韵感知和推理上的关键短板。

方法详解

整体框架

MMSU 包含 5000 条专家标注的多选题(MCQ),覆盖 47 个任务。采用三级层次结构组织: - 第一层: 感知(Perception, 24 任务) vs 推理(Reasoning, 23 任务) - 第二层: 语言学(Linguistics) vs 副语言学(Paralinguistics) - 第三层: 语义(Semantics)/音韵(Phonology)/说话人特征(Speaker Traits)/说话风格(Speaking Style)

关键设计

  1. 细粒度声学特征覆盖:
  2. 做什么: 覆盖非语言声音(哭泣、咳嗽)、口音(印度、英国)、情感状态、韵律特征(重音、延长音、停顿)、语调变化等
  3. 核心思路: 基于语音学各子领域理论,为每个维度设计专门任务
  4. 设计动机: 填补现有基准对声学特征覆盖不足的空白

  5. 高质量数据保证:

  6. 做什么: 优先使用真实语音数据,辅以专业配音演员录制和少量多说话人补充
  7. 核心思路: 四阶段流程——语言学框架设计→问题收集与选项增强→音频采集→人工审核(10 名标注员多轮审核)
  8. 设计动机: TTS 合成语音无法捕捉人类语音的微妙声学特征

  9. 语言学理论系统融入:

  10. 做什么: 首次设计包含绕口令、讽刺检测、同音异义推理、语调推理、对联匹配等语言学任务
  11. 核心思路: 从语音学、韵律学、修辞学、句法学、语义学、副语言学六个子领域出发设计任务
  12. 设计动机: 使评测不再停留在表层语义,而是深入语言学多层面理解

损失函数 / 训练策略

不适用(本文为 benchmark 工作)。评测采用统一指令提示,选项随机排序避免位置偏差。

实验关键数据

主实验

模型 大小 感知 Avg 推理 Avg 整体 Avg
Human - 91.24 86.77 89.72
Gemini-2.0-Flash - 57.51 68.15 62.63
GPT-4o-Audio - 57.30 66.62 61.67
Qwen2.5-Omni-7B 7B 53.26 69.99 61.25
Kimi-Audio 7B 43.52 76.03 59.28
Qwen2.5-Omni-3B 3B 42.37 72.76 56.83
MiniCPM-O 8.6B 40.54 73.57 56.53
MERaLiON 10B 35.74 73.68 54.10
SALMONN 7B 29.83 30.04 30.01
Random Guess - 25.02 25.37 25.37

消融实验

维度 最佳模型 准确率 人类表现 差距
感知-语义 Kimi-Audio 57.64% 87.10% -29.5
感知-音韵 Qwen2-Audio 44.93% 94.32% -49.4
感知-副语言 Qwen2.5-Omni-3B 39.19% 92.88% -53.7
推理-语义 Qwen2.5-Omni-7B 81.52% 82.16% -0.6
推理-音韵 Qwen2.5-Omni-7B 82.39% 87.60% -5.2

关键发现

  • 人机差距巨大: 最佳模型整体准确率 62.63%,人类 89.72%,差距 27 个点
  • 音韵感知是最大短板: 感知-音韵维度上最佳模型仅 44.93%,与人类差距近 50 个点
  • 推理强于感知: 模型在语义推理上接近人类水平,但在需要整合声学线索的感知任务上表现差
  • 闭源模型优势不明显: Gemini/GPT-4o 仅略优于 Qwen2.5-Omni-7B,说明感知能力未随规模显著提升
  • 端到端模型 > 级联模型: 直接处理音频的模型表现优于基于 ASR 转写再理解的方案

亮点与洞察

  • 首个系统融合语言学理论的语音理解基准,任务设计有学科深度
  • 47 个任务覆盖面极广,相比此前最大的 MMAU(27 任务)提升明显
  • 揭示了一个重要洞察:SpeechLLM 的推理能力已接近人类,但感知能力(尤其是音韵感知)严重落后
  • 数据质量高:真实语音为主、专家审核、多轮标注

局限性 / 可改进方向

  • 目前仅支持英语,多语言覆盖有待扩展
  • 评测格式为四选一 MCQ,可能无法完全反映开放式语音理解能力
  • 部分任务样本量有限(每任务约 100 条),统计显著性需关注
  • 未纳入多轮对话场景下的语音理解能力评测
  • 可以进一步分析模型错误的类型和模式,指导针对性改进

相关工作与启发

  • 与 VoiceBench、MMAU、AIR-Bench 等语音基准互补:MMSU 首次覆盖韵律、语调、修辞等维度
  • "感知≠推理"的发现为 SpeechLLM 训练策略提供重要方向:应重点提升声学感知能力
  • 为多模态 VLM 评测提供新范式:以学科理论指导 benchmark 设计,避免"有什么评什么"的被动模式

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统引入语言学理论指导语音基准设计
  • 实验充分度: ⭐⭐⭐⭐⭐ 22 个模型、47 个任务、含人类基线,评测极为全面
  • 写作质量: ⭐⭐⭐⭐ 层次清晰,任务分类体系完善
  • 价值: ⭐⭐⭐⭐⭐ 揭示 SpeechLLM 关键瓶颈,为社区提供重要评测基础设施