MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark¶

会议: ICLR 2026
arXiv: 2506.04779
代码: https://huggingface.co/datasets/ddwang2000/MMSU
领域: 多模态VLM
关键词: 语音理解, SpeechLLM, 语言学基准, 多任务评测, 感知与推理

一句话总结¶

提出 MMSU（5000 条音频 QA、47 个任务），首个系统融合语言学理论的语音理解与推理基准，评测 22 个 SpeechLLM，发现现有模型在音韵感知和复杂推理上仍存在显著差距。

研究背景与动机¶

领域现状: SpeechLLM（如 Qwen-Audio、Kimi-Audio、Gemini 等）已具备处理音频输入的能力，在 ASR、音频理解等任务上表现优异。然而，这些模型在细粒度语音感知和复杂推理上的能力尚未被系统评估。
现有痛点: 现有语音基准存在三大不足：
覆盖面窄: 主要聚焦于语义级任务，忽略了日常语音中常见的非语言现象（停顿、讽刺、自我纠正、韵律变化等）
数据真实性不足: 大量依赖 TTS 合成语音，缺乏人类真实语音的声学多样性
缺乏语言学理论指导: 评估设计未考虑语音学、韵律学、修辞学等基础语言学原理，导致评估存在盲区
核心矛盾: 真正的语音理解不仅要理解"说了什么"（语义），还需理解"怎么说的"（韵律、情感）和"真正想表达什么"（语用），但现有基准无法评测后两者。
本文要解决什么？ 构建一个全面、有语言学理论支撑的语音理解评测框架，系统评估 SpeechLLM 在感知和推理两个维度的能力。
切入角度: 以语言学理论体系（语音学、韵律学、修辞学、句法学、语义学、副语言学）为基础，自上而下设计任务分类体系。
核心idea一句话: 将语言学理论系统融入语音基准设计，创建跨 47 个任务的综合评测框架，揭示 SpeechLLM 在音韵感知和推理上的关键短板。

方法详解¶

整体框架¶

MMSU 包含 5000 条专家标注的多选题（MCQ），覆盖 47 个任务。采用三级层次结构组织： - 第一层: 感知(Perception, 24 任务) vs 推理(Reasoning, 23 任务) - 第二层: 语言学(Linguistics) vs 副语言学(Paralinguistics) - 第三层: 语义(Semantics)/音韵(Phonology)/说话人特征(Speaker Traits)/说话风格(Speaking Style)

关键设计¶

细粒度声学特征覆盖:
做什么: 覆盖非语言声音（哭泣、咳嗽）、口音（印度、英国）、情感状态、韵律特征（重音、延长音、停顿）、语调变化等
核心思路: 基于语音学各子领域理论，为每个维度设计专门任务
设计动机: 填补现有基准对声学特征覆盖不足的空白
高质量数据保证:
做什么: 优先使用真实语音数据，辅以专业配音演员录制和少量多说话人补充
核心思路: 四阶段流程——语言学框架设计→问题收集与选项增强→音频采集→人工审核（10 名标注员多轮审核）
设计动机: TTS 合成语音无法捕捉人类语音的微妙声学特征
语言学理论系统融入:
做什么: 首次设计包含绕口令、讽刺检测、同音异义推理、语调推理、对联匹配等语言学任务
核心思路: 从语音学、韵律学、修辞学、句法学、语义学、副语言学六个子领域出发设计任务
设计动机: 使评测不再停留在表层语义，而是深入语言学多层面理解

损失函数 / 训练策略¶

不适用（本文为 benchmark 工作）。评测采用统一指令提示，选项随机排序避免位置偏差。

实验关键数据¶

主实验¶

模型	大小	感知 Avg	推理 Avg	整体 Avg
Human	-	91.24	86.77	89.72
Gemini-2.0-Flash	-	57.51	68.15	62.63
GPT-4o-Audio	-	57.30	66.62	61.67
Qwen2.5-Omni-7B	7B	53.26	69.99	61.25
Kimi-Audio	7B	43.52	76.03	59.28
Qwen2.5-Omni-3B	3B	42.37	72.76	56.83
MiniCPM-O	8.6B	40.54	73.57	56.53
MERaLiON	10B	35.74	73.68	54.10
SALMONN	7B	29.83	30.04	30.01
Random Guess	-	25.02	25.37	25.37

消融实验¶

维度	最佳模型	准确率	人类表现	差距
感知-语义	Kimi-Audio	57.64%	87.10%	-29.5
感知-音韵	Qwen2-Audio	44.93%	94.32%	-49.4
感知-副语言	Qwen2.5-Omni-3B	39.19%	92.88%	-53.7
推理-语义	Qwen2.5-Omni-7B	81.52%	82.16%	-0.6
推理-音韵	Qwen2.5-Omni-7B	82.39%	87.60%	-5.2

关键发现¶

人机差距巨大: 最佳模型整体准确率 62.63%，人类 89.72%，差距 27 个点
音韵感知是最大短板: 感知-音韵维度上最佳模型仅 44.93%，与人类差距近 50 个点
推理强于感知: 模型在语义推理上接近人类水平，但在需要整合声学线索的感知任务上表现差
闭源模型优势不明显: Gemini/GPT-4o 仅略优于 Qwen2.5-Omni-7B，说明感知能力未随规模显著提升
端到端模型 > 级联模型: 直接处理音频的模型表现优于基于 ASR 转写再理解的方案

亮点与洞察¶

首个系统融合语言学理论的语音理解基准，任务设计有学科深度
47 个任务覆盖面极广，相比此前最大的 MMAU（27 任务）提升明显
揭示了一个重要洞察：SpeechLLM 的推理能力已接近人类，但感知能力（尤其是音韵感知）严重落后
数据质量高：真实语音为主、专家审核、多轮标注

局限性 / 可改进方向¶

目前仅支持英语，多语言覆盖有待扩展
评测格式为四选一 MCQ，可能无法完全反映开放式语音理解能力
部分任务样本量有限（每任务约 100 条），统计显著性需关注
未纳入多轮对话场景下的语音理解能力评测
可以进一步分析模型错误的类型和模式，指导针对性改进

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统引入语言学理论指导语音基准设计
实验充分度: ⭐⭐⭐⭐⭐ 22 个模型、47 个任务、含人类基线，评测极为全面
写作质量: ⭐⭐⭐⭐ 层次清晰，任务分类体系完善
价值: ⭐⭐⭐⭐⭐ 揭示 SpeechLLM 关键瓶颈，为社区提供重要评测基础设施