跳转至

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

日期: 2026-03-19
arXiv: 2603.19217
代码: 项目页面
领域: 视频理解 / 多模态/VLM
关键词: 长视频理解, 全模态评估, 音视频联合推理, OmniLLM, 基准测试

一句话总结

提出 LVOmniBench,首个专门评估全模态 LLM 在长时音视频(10-90 分钟,共 140 小时)联合推理能力的基准,包含 275 视频 + 1014 人工标注 QA 对(含三级难度),发现开源模型准确率 <35%,Gemini 3 Pro 峰值仅 ~65%,并通过 ASR 消融揭示开源模型根本无法有效利用音频信息。

研究背景与动机

  1. 领域现状: OmniLLM(如 Qwen3-Omni、MiniCPM-o、VideoLLaMA2)能同时处理视频+音频+文本。评估基准方面,OmniBench 只评估静态图片+音频,Daily-Omni/WorldSense 评估短视频(平均 42s~141s),OmniVideoBench 虽有少量 10-30 分钟视频但大部分仍是几分钟级别。

  2. 现有痛点: 真实世界视频通常持续数十分钟(电影、会议、讲座),但没有基准评估 OmniLLM 在 长时 音视频上的表现。短视频基准无法暴露三个核心挑战:(a) 长程音视频记忆衰退 (b) 跨模态时序对齐 (c) 需要音频+视觉联合才能回答的推理问题。现有基准的平均视频时长最长仅 ~384s(OmniVideoBench),与真实场景有数量级差距。

  3. 核心矛盾: 现有 OmniLLM 在短视频基准上表现不错,容易给人"已解决"的错觉——但延长到 10 分钟以上后,模型的跨模态对齐、长程记忆和复杂推理能力急剧退化。需要一个严格的长时基准来暴露真实能力上限。

  4. 本文要解决什么? 构建首个长时音视频理解基准,要求:(a) 视频 10-90 分钟 (b) 每个问题必须音+视觉联合推理,单模态无法回答 (c) 多难度层级评估 (d) 完全人工标注保证质量。

  5. 切入角度: 从认知能力维度设计问题体系(感知→理解→推理→逻辑),而非简单的视觉问答。通过严格的跨模态过滤(Gemini 单模态测试+人工审核)确保每个问题确实需要音视频联合。

  6. 核心 idea: 长时音视频理解的关键瓶颈不在视觉(已有较多长视频方案),而在音频的长序列建模和跨模态对齐——这是被忽视的核心难题。

方法详解

整体框架

LVOmniBench 的构建流程:YouTube 视频收集(Creative Commons 授权)→ 长度和质量过滤(3000+ 初始池 → 275 精选视频)→ 人工问题标注(1500+ QA)→ 跨模态过滤(Gemini 单模态测试+人工审核 → 1014 QA)→ 难度分级标注。

关键设计

1. 视频收集与筛选

  • 来源: YouTube 上 Creative Commons 授权视频,覆盖 5 大类 21 细分类(娱乐、生活方式、DIY&烹饪、纪录、影视)
  • 时长: 10-90 分钟/视频,平均 34 分 29 秒——比现有基准长 6-20 倍
  • 总规模: 275 视频,总时长 140 小时
  • 筛选标准: 从 3000+ 候选中精选,要求音视频信息都丰富且动态——纯背景音乐或纯画面的视频被排除

2. 问题标注体系

按认知能力维度设计四大类九子类问题:

维度 子类 评估能力
感知 Perception 计数、属性感知、音乐感知 从长上下文中提取细粒度音视频特征
理解 Understanding 以人为中心理解、事件理解 实体/动作/情境的语义识别,需跨模态线索综合
推理 Inference 声音推理、空间推理、时间推理 跨时空维度的模态对齐与因果关系推理
逻辑 Logical 逻辑推理 多步推理、因果追踪、跨模态复杂推理链

每个问题 4 选项,严格要求: - 必须联合音视频才能回答(通过 Gemini 单模态测试验证) - 不能靠常识知识回答 - 干扰项必须来自视频/音频内容 - 最小化显式时间戳提示

3. 三级难度标注

不是简单按视频长度或问题类型定难度,而是综合评估: - 感知难度(需要多精细的观察) - 信息粒度(需要多细节的理解) - 时间跨度(答案线索分布在多长的时间范围内) - 推理复杂度(需要多少步推理)

分布:Low=314, Medium=441, High=259

4. 跨模态质量过滤(关键创新)

  • 用 Gemini 分别做 video-only、audio-only、text-only 推理
  • 如果单模态就能答对 → 说明问题设计有缺陷 → 要求标注者修改或删除
  • 从 1500+ 初始 QA 过滤到 1014 个最终 QA
  • 这保证了每个问题确实需要跨模态联合推理

评估设计

  • 开源模型:帧数设为模型允许的最大值(Qwen3-Omni 768帧、MiniCPM-o 4.5 64帧、VideoLLaMA2 16帧)
  • Gemini:1 FPS + deep thinking mode
  • 音频消融:对比 video-only / video+ASR / video+原始音频三种配置

实验关键数据

主结果:模型表现对比

模型 模态 Low% Med% High% Avg%
Gemini 3.0-Pro A+V 79.3 68.1 45.0 65.8
Gemini 3.0-Flash A+V 76.6 63.0 31.0 59.0
Gemini 2.0-Flash A+V 57.0 48.9 29.8 42.9
Gemini 3.0-Flash V only 55.6 49.3 30.6 46.2
Ming-Omni-2.0-100B A+V 41.3 32.9 29.3 34.6
MiniCPM-o 4.5 A+V 43.4 34.1 25.1 34.8
Qwen3-Omni-30B A+V 41.0 36.3 28.6 35.8
video-SALMONN 2+ 7B A+V 40.9 30.2 26.7 32.7
Qwen2.5-Omni-7B A+V 37.7 29.9 28.3 32.0
VideoLLaMA2-7B A+V 27.0 26.8 28.2 27.2
Qwen3-VL-30B V only 42.9 35.2 30.1 36.3
Qwen2-Audio A only 27.0 25.2 21.2 24.7

音频消融实验(核心发现)

模型 Video-only +ASR +原始Audio Δ(Audio vs Video)
Gemini 3.0-Flash 46.2 52.0 (+5.8) 59.0 (+12.8) 原始音频远优于ASR
Qwen3-Omni-30B 35.1 42.2 (+7.1) 35.8 (+0.7) ASR帮助大,原始音频几乎没用
Ming-Omni-2.0-100B 33.6 40.5 (+6.9) 34.6 (+1.0) 同上
MiniCPM-o 4.5 33.1 32.3 (-0.8) 34.8 (+1.7) 音频几乎无帮助
VideoLLaMA2-7B 28.4 27.2 (-1.2) 加音频反而有害

关键发现

  • 闭源 vs 开源差距 ~30pp: Gemini 3.0-Pro (65.8%) vs 开源最佳 Qwen3-Omni (35.8%)——这个差距远大于纯视频理解基准上的差距
  • 开源模型根本无法有效利用原始音频: Qwen3-Omni 加 ASR 文本后 +7.1pp,但加原始音频只 +0.7pp;说明开源模型的音频编码器在长序列上基本失效,只有文本化后才能利用语音信息。而 Gemini 的原始音频(+12.8pp)远超 ASR(+5.8pp),说明它能捕捉非语言声学信息(情感、语调、音乐)
  • 难度梯度验证有效: 所有模型在 Low→High 上准确率单调下降;开源模型在 High 上接近随机(~28%)
  • 音乐感知是最大短板: 所有模型在音乐类问题上表现最差——非语言、抽象的声学信息是跨模态理解的最后堡垒
  • Gemini 3 内部代际提升巨大: Gemini 3.0-Pro (65.8%) vs Gemini 2.0-Flash (42.9%)——提升了 22.9pp,主要来自超长上下文处理和音频理解的改进
  • 帧数限制是开源模型瓶颈之一: VideoLLaMA2 只能输入 16 帧(30分钟视频每帧代表 ~2 分钟),信息损失极大

错误分析(Gemini 3 Flash,153 个错误样本)

错误类型 占比 说明
感知错误 34% 60% 为音频感知(模态偏向、细粒度声学属性困难),40% 为视觉感知(空间推理、计数)
推理错误 23.5% 逻辑推导和数学推理失败、时序动态理解困难
定位错误 19.6% 长视频中事件的时间定位不准——音视频联合定位几乎无人研究
跨模态语义鸿沟 19% 两个模态独立处理、无法融合对齐——人能做到但模型做不到
OCR/情感感知 4% 视频内嵌文字识别、隐含情感理解

亮点与洞察

  • "开源 OmniLLM 真的能听懂音频吗?": 通过 ASR 消融实验给出了明确回答——不能。Qwen3-Omni 加 ASR 文本 +7.1pp,加原始音频仅 +0.7pp,说明其音频编码器在长序列场景下几乎失效。这个发现比简单报准确率更有诊断价值。
  • 跨模态过滤保证基准质量: 用 Gemini 做三种单模态测试来过滤问题——这种方法确保了每个 QA 真正需要音视频联合推理,而非只是"带背景音的视频问答"。这个过滤方法论值得后续基准借鉴。
  • 音频长序列建模是被忽视的关键瓶颈: 长视频理解领域有大量 token 压缩、动态分辨率、流式理解方案,但都只针对视频帧——音频的严格时序连续性使其更难压缩。论文的错误分析也证实了这点:34% 的错误来自感知层面,其中 60% 是音频感知。
  • 难度标注的多维度设计: 不依赖视频长度或问题类型等表面特征,而是从感知难度、信息粒度、时间跨度、推理复杂度四个维度综合评估——使得难度梯度真正反映认知复杂度。

局限性 / 可改进方向

  • 规模中等: 275 视频 + 1014 QA,某些细分类别(如音乐感知 114 题)样本量可能不足以得出可靠统计结论
  • 语言偏向: 以英语为主,多语言场景(如多语种会议)的跨语言音视频理解未覆盖
  • 评估格式限制: 多项选择无法衡量自由文本生成质量、时间戳定位精度等更细粒度的能力
  • 帧数不公平: 各模型输入帧数差异巨大(Gemini 1FPS ≈ 2000帧 vs VideoLLaMA2 16帧)——模型能力差还是输入信息差导致的性能差距难以区分
  • 时长分层分析缺失: 未细分 10min 视频和 60min 视频的性能差异——无法判断性能退化是线性的还是存在某个临界时长
  • 缺乏 training set: 作为纯评估基准,没有提供训练数据——开源社区难以用此基准优化模型

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个长时音视频联合理解基准,填补关键评估空白
  • 实验充分度: ⭐⭐⭐⭐ 12 个模型 + 音频消融 + 难度分析 + 错误分析,但缺少时长分层
  • 写作质量: ⭐⭐⭐⭐ 与现有基准对比详尽,分析深入
  • 价值: ⭐⭐⭐⭐⭐ 暴露了开源 OmniLLM 的音频利用困境,为社区指明关键改进方向