See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models¶

会议: CVPR 2026
arXiv: 2512.02231
代码: https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
领域: 多模态VLM / 音视频理解
关键词: 音视频推理, 说话人中心基准, 多模态融合, 语音理解, 时序定位

一句话总结¶

提出 AV-SpeakerBench，一个包含 3212 道选择题的以说话人为中心的音视频推理基准，揭示了 Gemini 2.5 Pro 在音视频融合方面的优势以及开源模型在说话人推理上的显著不足。

领域现状：多模态大模型已从图像-文本扩展到视频和音频理解，开始追求统一处理视觉、音频和语言的能力。
现有痛点：现有视频基准中很多问题仅靠视觉即可解答（如 Video-MME），音视频基准要么聚焦非语音声事件（AVQA），要么做粗粒度分类（VGGSounder），不评估精细的说话人推理。
核心矛盾：没有基准系统评估模型是否能联合确定"谁在说话、说了什么、何时说的"。
本文目标：构建以说话人为核心推理单元的音视频推理基准。
切入角度：融合驱动的问题设计，将音视频依赖嵌入问题和选项的语义中。
核心 idea：每个问题都需要跨模态融合才能回答——例如将口头短语与可见说话人关联、根据视觉事件定位语音。

IRB 批准的基准，2051 个视频片段，3212 道四选一选择题，覆盖 12 个任务类型。数据来自 YouTube（电影片段、游戏节目、街头采访等）。

以说话人为中心的任务设计:
- 功能：将评估从场景级理解转移到以人为中心的音视频定位
- 核心思路：12 个任务分三大类：说话人中心（检测、识别、计数）、视觉中心（属性、活动、计数识别）、音频中心（识别、时长、音高、语速、强度、计数）。每个任务至少 200 道验证题。
- 设计动机：涵盖多种说话人推理模式，从基础感知到时序推理。
融合驱动的问题设计:
- 功能：确保每道题需要真正的音视频融合
- 核心思路：音视频依赖嵌入问题语义中：(1) 口语短语与可见身份关联；(2) 视觉事件定位语音；(3) 多说话人场景中结合音视频线索。干扰项来自同一片段中的实体/事件。
- 设计动机：避免模型仅靠单一模态即可回答。
专家策划标注管道:
- 功能：确保标注质量和跨模态有效性
- 核心思路：标注者为经验丰富的研究人员而非众包工人。多阶段精炼：(1) 独立研究人员初审；(2) 语言模型润色；(3) 至少两位额外研究人员终审。过滤歧义和可单模态解决的样本。
- 设计动机：确保所有保留问题展现时序敏感性和说话人定位。

纯评测基准，无训练。人类基线由研究生完成。

模型	说话人中心	视觉中心	音频中心	总体
Gemini 2.5 Pro	76.7	71.5	72.9	73.0
Qwen3-Omni-30B	54.5	51.8	53.7	54.1
Gemini 2.0 Flash	57.2	54.8	51.5	53.2
人类	94.4	93.5	92.3	93.7

配置	Gemini 2.5 Pro	Qwen3-Omni	说明
仅视觉	~55-60%	~50-55%	基础视觉能力
音频+视觉	~70-80%	~50-55%	Gemini 提升 10-20pp
音频增益	+10-20pp	0~负	核心融合能力差距