LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs¶
日期: 2026-03-19
arXiv: 2603.19217
代码: 项目页面
领域: 视频理解 / 多模态/VLM
关键词: 长视频理解, 全模态评估, 音视频联合推理, OmniLLM, 基准测试
一句话总结¶
提出 LVOmniBench,首个专门评估全模态 LLM 在长时音视频(10-90 分钟,共 140 小时)联合推理能力的基准,包含 275 视频 + 1014 人工标注 QA 对(含三级难度),发现开源模型准确率 <35%,Gemini 3 Pro 峰值仅 ~65%,并通过 ASR 消融揭示开源模型根本无法有效利用音频信息。
研究背景与动机¶
-
领域现状: OmniLLM(如 Qwen3-Omni、MiniCPM-o、VideoLLaMA2)能同时处理视频+音频+文本。评估基准方面,OmniBench 只评估静态图片+音频,Daily-Omni/WorldSense 评估短视频(平均 42s~141s),OmniVideoBench 虽有少量 10-30 分钟视频但大部分仍是几分钟级别。
-
现有痛点: 真实世界视频通常持续数十分钟(电影、会议、讲座),但没有基准评估 OmniLLM 在 长时 音视频上的表现。短视频基准无法暴露三个核心挑战:(a) 长程音视频记忆衰退 (b) 跨模态时序对齐 (c) 需要音频+视觉联合才能回答的推理问题。现有基准的平均视频时长最长仅 ~384s(OmniVideoBench),与真实场景有数量级差距。
-
核心矛盾: 现有 OmniLLM 在短视频基准上表现不错,容易给人"已解决"的错觉——但延长到 10 分钟以上后,模型的跨模态对齐、长程记忆和复杂推理能力急剧退化。需要一个严格的长时基准来暴露真实能力上限。
-
本文要解决什么? 构建首个长时音视频理解基准,要求:(a) 视频 10-90 分钟 (b) 每个问题必须音+视觉联合推理,单模态无法回答 (c) 多难度层级评估 (d) 完全人工标注保证质量。
-
切入角度: 从认知能力维度设计问题体系(感知→理解→推理→逻辑),而非简单的视觉问答。通过严格的跨模态过滤(Gemini 单模态测试+人工审核)确保每个问题确实需要音视频联合。
-
核心 idea: 长时音视频理解的关键瓶颈不在视觉(已有较多长视频方案),而在音频的长序列建模和跨模态对齐——这是被忽视的核心难题。
方法详解¶
整体框架¶
LVOmniBench 的构建流程:YouTube 视频收集(Creative Commons 授权)→ 长度和质量过滤(3000+ 初始池 → 275 精选视频)→ 人工问题标注(1500+ QA)→ 跨模态过滤(Gemini 单模态测试+人工审核 → 1014 QA)→ 难度分级标注。
关键设计¶
1. 视频收集与筛选¶
- 来源: YouTube 上 Creative Commons 授权视频,覆盖 5 大类 21 细分类(娱乐、生活方式、DIY&烹饪、纪录、影视)
- 时长: 10-90 分钟/视频,平均 34 分 29 秒——比现有基准长 6-20 倍
- 总规模: 275 视频,总时长 140 小时
- 筛选标准: 从 3000+ 候选中精选,要求音视频信息都丰富且动态——纯背景音乐或纯画面的视频被排除
2. 问题标注体系¶
按认知能力维度设计四大类九子类问题:
| 维度 | 子类 | 评估能力 |
|---|---|---|
| 感知 Perception | 计数、属性感知、音乐感知 | 从长上下文中提取细粒度音视频特征 |
| 理解 Understanding | 以人为中心理解、事件理解 | 实体/动作/情境的语义识别,需跨模态线索综合 |
| 推理 Inference | 声音推理、空间推理、时间推理 | 跨时空维度的模态对齐与因果关系推理 |
| 逻辑 Logical | 逻辑推理 | 多步推理、因果追踪、跨模态复杂推理链 |
每个问题 4 选项,严格要求: - 必须联合音视频才能回答(通过 Gemini 单模态测试验证) - 不能靠常识知识回答 - 干扰项必须来自视频/音频内容 - 最小化显式时间戳提示
3. 三级难度标注¶
不是简单按视频长度或问题类型定难度,而是综合评估: - 感知难度(需要多精细的观察) - 信息粒度(需要多细节的理解) - 时间跨度(答案线索分布在多长的时间范围内) - 推理复杂度(需要多少步推理)
分布:Low=314, Medium=441, High=259
4. 跨模态质量过滤(关键创新)¶
- 用 Gemini 分别做 video-only、audio-only、text-only 推理
- 如果单模态就能答对 → 说明问题设计有缺陷 → 要求标注者修改或删除
- 从 1500+ 初始 QA 过滤到 1014 个最终 QA
- 这保证了每个问题确实需要跨模态联合推理
评估设计¶
- 开源模型:帧数设为模型允许的最大值(Qwen3-Omni 768帧、MiniCPM-o 4.5 64帧、VideoLLaMA2 16帧)
- Gemini:1 FPS + deep thinking mode
- 音频消融:对比 video-only / video+ASR / video+原始音频三种配置
实验关键数据¶
主结果:模型表现对比¶
| 模型 | 模态 | Low% | Med% | High% | Avg% |
|---|---|---|---|---|---|
| Gemini 3.0-Pro | A+V | 79.3 | 68.1 | 45.0 | 65.8 |
| Gemini 3.0-Flash | A+V | 76.6 | 63.0 | 31.0 | 59.0 |
| Gemini 2.0-Flash | A+V | 57.0 | 48.9 | 29.8 | 42.9 |
| Gemini 3.0-Flash | V only | 55.6 | 49.3 | 30.6 | 46.2 |
| Ming-Omni-2.0-100B | A+V | 41.3 | 32.9 | 29.3 | 34.6 |
| MiniCPM-o 4.5 | A+V | 43.4 | 34.1 | 25.1 | 34.8 |
| Qwen3-Omni-30B | A+V | 41.0 | 36.3 | 28.6 | 35.8 |
| video-SALMONN 2+ 7B | A+V | 40.9 | 30.2 | 26.7 | 32.7 |
| Qwen2.5-Omni-7B | A+V | 37.7 | 29.9 | 28.3 | 32.0 |
| VideoLLaMA2-7B | A+V | 27.0 | 26.8 | 28.2 | 27.2 |
| Qwen3-VL-30B | V only | 42.9 | 35.2 | 30.1 | 36.3 |
| Qwen2-Audio | A only | 27.0 | 25.2 | 21.2 | 24.7 |
音频消融实验(核心发现)¶
| 模型 | Video-only | +ASR | +原始Audio | Δ(Audio vs Video) |
|---|---|---|---|---|
| Gemini 3.0-Flash | 46.2 | 52.0 (+5.8) | 59.0 (+12.8) | 原始音频远优于ASR |
| Qwen3-Omni-30B | 35.1 | 42.2 (+7.1) | 35.8 (+0.7) | ASR帮助大,原始音频几乎没用 |
| Ming-Omni-2.0-100B | 33.6 | 40.5 (+6.9) | 34.6 (+1.0) | 同上 |
| MiniCPM-o 4.5 | 33.1 | 32.3 (-0.8) | 34.8 (+1.7) | 音频几乎无帮助 |
| VideoLLaMA2-7B | 28.4 | — | 27.2 (-1.2) | 加音频反而有害 |
关键发现¶
- 闭源 vs 开源差距 ~30pp: Gemini 3.0-Pro (65.8%) vs 开源最佳 Qwen3-Omni (35.8%)——这个差距远大于纯视频理解基准上的差距
- 开源模型根本无法有效利用原始音频: Qwen3-Omni 加 ASR 文本后 +7.1pp,但加原始音频只 +0.7pp;说明开源模型的音频编码器在长序列上基本失效,只有文本化后才能利用语音信息。而 Gemini 的原始音频(+12.8pp)远超 ASR(+5.8pp),说明它能捕捉非语言声学信息(情感、语调、音乐)
- 难度梯度验证有效: 所有模型在 Low→High 上准确率单调下降;开源模型在 High 上接近随机(~28%)
- 音乐感知是最大短板: 所有模型在音乐类问题上表现最差——非语言、抽象的声学信息是跨模态理解的最后堡垒
- Gemini 3 内部代际提升巨大: Gemini 3.0-Pro (65.8%) vs Gemini 2.0-Flash (42.9%)——提升了 22.9pp,主要来自超长上下文处理和音频理解的改进
- 帧数限制是开源模型瓶颈之一: VideoLLaMA2 只能输入 16 帧(30分钟视频每帧代表 ~2 分钟),信息损失极大
错误分析(Gemini 3 Flash,153 个错误样本)¶
| 错误类型 | 占比 | 说明 |
|---|---|---|
| 感知错误 | 34% | 60% 为音频感知(模态偏向、细粒度声学属性困难),40% 为视觉感知(空间推理、计数) |
| 推理错误 | 23.5% | 逻辑推导和数学推理失败、时序动态理解困难 |
| 定位错误 | 19.6% | 长视频中事件的时间定位不准——音视频联合定位几乎无人研究 |
| 跨模态语义鸿沟 | 19% | 两个模态独立处理、无法融合对齐——人能做到但模型做不到 |
| OCR/情感感知 | 4% | 视频内嵌文字识别、隐含情感理解 |
亮点与洞察¶
- "开源 OmniLLM 真的能听懂音频吗?": 通过 ASR 消融实验给出了明确回答——不能。Qwen3-Omni 加 ASR 文本 +7.1pp,加原始音频仅 +0.7pp,说明其音频编码器在长序列场景下几乎失效。这个发现比简单报准确率更有诊断价值。
- 跨模态过滤保证基准质量: 用 Gemini 做三种单模态测试来过滤问题——这种方法确保了每个 QA 真正需要音视频联合推理,而非只是"带背景音的视频问答"。这个过滤方法论值得后续基准借鉴。
- 音频长序列建模是被忽视的关键瓶颈: 长视频理解领域有大量 token 压缩、动态分辨率、流式理解方案,但都只针对视频帧——音频的严格时序连续性使其更难压缩。论文的错误分析也证实了这点:34% 的错误来自感知层面,其中 60% 是音频感知。
- 难度标注的多维度设计: 不依赖视频长度或问题类型等表面特征,而是从感知难度、信息粒度、时间跨度、推理复杂度四个维度综合评估——使得难度梯度真正反映认知复杂度。
局限性 / 可改进方向¶
- 规模中等: 275 视频 + 1014 QA,某些细分类别(如音乐感知 114 题)样本量可能不足以得出可靠统计结论
- 语言偏向: 以英语为主,多语言场景(如多语种会议)的跨语言音视频理解未覆盖
- 评估格式限制: 多项选择无法衡量自由文本生成质量、时间戳定位精度等更细粒度的能力
- 帧数不公平: 各模型输入帧数差异巨大(Gemini 1FPS ≈ 2000帧 vs VideoLLaMA2 16帧)——模型能力差还是输入信息差导致的性能差距难以区分
- 时长分层分析缺失: 未细分 10min 视频和 60min 视频的性能差异——无法判断性能退化是线性的还是存在某个临界时长
- 缺乏 training set: 作为纯评估基准,没有提供训练数据——开源社区难以用此基准优化模型
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个长时音视频联合理解基准,填补关键评估空白
- 实验充分度: ⭐⭐⭐⭐ 12 个模型 + 音频消融 + 难度分析 + 错误分析,但缺少时长分层
- 写作质量: ⭐⭐⭐⭐ 与现有基准对比详尽,分析深入
- 价值: ⭐⭐⭐⭐⭐ 暴露了开源 OmniLLM 的音频利用困境,为社区指明关键改进方向