LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs¶

日期: 2026-03-19
arXiv: 2603.19217
代码: 项目页面
领域: 视频理解 / 多模态/VLM
关键词: 长视频理解, 全模态评估, 音视频联合推理, OmniLLM, 基准测试

一句话总结¶

提出 LVOmniBench，首个专门评估全模态 LLM 在长时音视频（10-90 分钟，共 140 小时）联合推理能力的基准，包含 275 视频 + 1014 人工标注 QA 对（含三级难度），发现开源模型准确率 <35%，Gemini 3 Pro 峰值仅 ~65%，并通过 ASR 消融揭示开源模型根本无法有效利用音频信息。

研究背景与动机¶

领域现状: OmniLLM（如 Qwen3-Omni、MiniCPM-o、VideoLLaMA2）能同时处理视频+音频+文本。评估基准方面，OmniBench 只评估静态图片+音频，Daily-Omni/WorldSense 评估短视频（平均 42s~141s），OmniVideoBench 虽有少量 10-30 分钟视频但大部分仍是几分钟级别。
现有痛点: 真实世界视频通常持续数十分钟（电影、会议、讲座），但没有基准评估 OmniLLM 在长时音视频上的表现。短视频基准无法暴露三个核心挑战：(a) 长程音视频记忆衰退 (b) 跨模态时序对齐 (c) 需要音频+视觉联合才能回答的推理问题。现有基准的平均视频时长最长仅 ~384s（OmniVideoBench），与真实场景有数量级差距。
核心矛盾: 现有 OmniLLM 在短视频基准上表现不错，容易给人"已解决"的错觉——但延长到 10 分钟以上后，模型的跨模态对齐、长程记忆和复杂推理能力急剧退化。需要一个严格的长时基准来暴露真实能力上限。
本文要解决什么？ 构建首个长时音视频理解基准，要求：(a) 视频 10-90 分钟 (b) 每个问题必须音+视觉联合推理，单模态无法回答 (c) 多难度层级评估 (d) 完全人工标注保证质量。
切入角度: 从认知能力维度设计问题体系（感知→理解→推理→逻辑），而非简单的视觉问答。通过严格的跨模态过滤（Gemini 单模态测试+人工审核）确保每个问题确实需要音视频联合。
核心 idea: 长时音视频理解的关键瓶颈不在视觉（已有较多长视频方案），而在音频的长序列建模和跨模态对齐——这是被忽视的核心难题。

方法详解¶

整体框架¶

LVOmniBench 的构建流程：YouTube 视频收集（Creative Commons 授权）→ 长度和质量过滤（3000+ 初始池 → 275 精选视频）→ 人工问题标注（1500+ QA）→ 跨模态过滤（Gemini 单模态测试+人工审核 → 1014 QA）→ 难度分级标注。

关键设计¶

1. 视频收集与筛选¶

来源: YouTube 上 Creative Commons 授权视频，覆盖 5 大类 21 细分类（娱乐、生活方式、DIY&烹饪、纪录、影视）
时长: 10-90 分钟/视频，平均 34 分 29 秒——比现有基准长 6-20 倍
总规模: 275 视频，总时长 140 小时
筛选标准: 从 3000+ 候选中精选，要求音视频信息都丰富且动态——纯背景音乐或纯画面的视频被排除

2. 问题标注体系¶

按认知能力维度设计四大类九子类问题：

维度	子类	评估能力
感知 Perception	计数、属性感知、音乐感知	从长上下文中提取细粒度音视频特征
理解 Understanding	以人为中心理解、事件理解	实体/动作/情境的语义识别，需跨模态线索综合
推理 Inference	声音推理、空间推理、时间推理	跨时空维度的模态对齐与因果关系推理
逻辑 Logical	逻辑推理	多步推理、因果追踪、跨模态复杂推理链

每个问题 4 选项，严格要求： - 必须联合音视频才能回答（通过 Gemini 单模态测试验证） - 不能靠常识知识回答 - 干扰项必须来自视频/音频内容 - 最小化显式时间戳提示

3. 三级难度标注¶

不是简单按视频长度或问题类型定难度，而是综合评估： - 感知难度（需要多精细的观察） - 信息粒度（需要多细节的理解） - 时间跨度（答案线索分布在多长的时间范围内） - 推理复杂度（需要多少步推理）

分布：Low=314, Medium=441, High=259

4. 跨模态质量过滤（关键创新）¶

用 Gemini 分别做 video-only、audio-only、text-only 推理
如果单模态就能答对 → 说明问题设计有缺陷 → 要求标注者修改或删除
从 1500+ 初始 QA 过滤到 1014 个最终 QA
这保证了每个问题确实需要跨模态联合推理

评估设计¶

开源模型：帧数设为模型允许的最大值（Qwen3-Omni 768帧、MiniCPM-o 4.5 64帧、VideoLLaMA2 16帧）
Gemini：1 FPS + deep thinking mode
音频消融：对比 video-only / video+ASR / video+原始音频三种配置

实验关键数据¶

主结果：模型表现对比¶

模型	模态	Low%	Med%	High%	Avg%
Gemini 3.0-Pro	A+V	79.3	68.1	45.0	65.8
Gemini 3.0-Flash	A+V	76.6	63.0	31.0	59.0
Gemini 2.0-Flash	A+V	57.0	48.9	29.8	42.9
Gemini 3.0-Flash	V only	55.6	49.3	30.6	46.2
Ming-Omni-2.0-100B	A+V	41.3	32.9	29.3	34.6
MiniCPM-o 4.5	A+V	43.4	34.1	25.1	34.8
Qwen3-Omni-30B	A+V	41.0	36.3	28.6	35.8
video-SALMONN 2+ 7B	A+V	40.9	30.2	26.7	32.7
Qwen2.5-Omni-7B	A+V	37.7	29.9	28.3	32.0
VideoLLaMA2-7B	A+V	27.0	26.8	28.2	27.2
Qwen3-VL-30B	V only	42.9	35.2	30.1	36.3
Qwen2-Audio	A only	27.0	25.2	21.2	24.7

音频消融实验（核心发现）¶

模型	Video-only	+ASR	+原始Audio	Δ(Audio vs Video)
Gemini 3.0-Flash	46.2	52.0 (+5.8)	59.0 (+12.8)	原始音频远优于ASR
Qwen3-Omni-30B	35.1	42.2 (+7.1)	35.8 (+0.7)	ASR帮助大，原始音频几乎没用
Ming-Omni-2.0-100B	33.6	40.5 (+6.9)	34.6 (+1.0)	同上
MiniCPM-o 4.5	33.1	32.3 (-0.8)	34.8 (+1.7)	音频几乎无帮助
VideoLLaMA2-7B	28.4	—	27.2 (-1.2)	加音频反而有害

关键发现¶

闭源 vs 开源差距 ~30pp: Gemini 3.0-Pro (65.8%) vs 开源最佳 Qwen3-Omni (35.8%)——这个差距远大于纯视频理解基准上的差距
开源模型根本无法有效利用原始音频: Qwen3-Omni 加 ASR 文本后 +7.1pp，但加原始音频只 +0.7pp；说明开源模型的音频编码器在长序列上基本失效，只有文本化后才能利用语音信息。而 Gemini 的原始音频（+12.8pp）远超 ASR（+5.8pp），说明它能捕捉非语言声学信息（情感、语调、音乐）
难度梯度验证有效: 所有模型在 Low→High 上准确率单调下降；开源模型在 High 上接近随机（~28%）
音乐感知是最大短板: 所有模型在音乐类问题上表现最差——非语言、抽象的声学信息是跨模态理解的最后堡垒
Gemini 3 内部代际提升巨大: Gemini 3.0-Pro (65.8%) vs Gemini 2.0-Flash (42.9%)——提升了 22.9pp，主要来自超长上下文处理和音频理解的改进
帧数限制是开源模型瓶颈之一: VideoLLaMA2 只能输入 16 帧（30分钟视频每帧代表 ~2 分钟），信息损失极大

错误分析（Gemini 3 Flash，153 个错误样本）¶

错误类型	占比	说明
感知错误	34%	60% 为音频感知（模态偏向、细粒度声学属性困难），40% 为视觉感知（空间推理、计数）
推理错误	23.5%	逻辑推导和数学推理失败、时序动态理解困难
定位错误	19.6%	长视频中事件的时间定位不准——音视频联合定位几乎无人研究
跨模态语义鸿沟	19%	两个模态独立处理、无法融合对齐——人能做到但模型做不到
OCR/情感感知	4%	视频内嵌文字识别、隐含情感理解

亮点与洞察¶

"开源 OmniLLM 真的能听懂音频吗？": 通过 ASR 消融实验给出了明确回答——不能。Qwen3-Omni 加 ASR 文本 +7.1pp，加原始音频仅 +0.7pp，说明其音频编码器在长序列场景下几乎失效。这个发现比简单报准确率更有诊断价值。
跨模态过滤保证基准质量: 用 Gemini 做三种单模态测试来过滤问题——这种方法确保了每个 QA 真正需要音视频联合推理，而非只是"带背景音的视频问答"。这个过滤方法论值得后续基准借鉴。
音频长序列建模是被忽视的关键瓶颈: 长视频理解领域有大量 token 压缩、动态分辨率、流式理解方案，但都只针对视频帧——音频的严格时序连续性使其更难压缩。论文的错误分析也证实了这点：34% 的错误来自感知层面，其中 60% 是音频感知。
难度标注的多维度设计: 不依赖视频长度或问题类型等表面特征，而是从感知难度、信息粒度、时间跨度、推理复杂度四个维度综合评估——使得难度梯度真正反映认知复杂度。

局限性 / 可改进方向¶

规模中等: 275 视频 + 1014 QA，某些细分类别（如音乐感知 114 题）样本量可能不足以得出可靠统计结论
语言偏向: 以英语为主，多语言场景（如多语种会议）的跨语言音视频理解未覆盖
评估格式限制: 多项选择无法衡量自由文本生成质量、时间戳定位精度等更细粒度的能力
帧数不公平: 各模型输入帧数差异巨大（Gemini 1FPS ≈ 2000帧 vs VideoLLaMA2 16帧）——模型能力差还是输入信息差导致的性能差距难以区分
时长分层分析缺失: 未细分 10min 视频和 60min 视频的性能差异——无法判断性能退化是线性的还是存在某个临界时长
缺乏 training set: 作为纯评估基准，没有提供训练数据——开源社区难以用此基准优化模型

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个长时音视频联合理解基准，填补关键评估空白
实验充分度: ⭐⭐⭐⭐ 12 个模型 + 音频消融 + 难度分析 + 错误分析，但缺少时长分层
写作质量: ⭐⭐⭐⭐ 与现有基准对比详尽，分析深入
价值: ⭐⭐⭐⭐⭐ 暴露了开源 OmniLLM 的音频利用困境，为社区指明关键改进方向