跳转至

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding

会议: AAAI 2026
arXiv: 2601.15016
代码: github
领域: 视频理解
关键词: 直播视频理解, 多模态基准, 实时评论, 指令微调, 全模态模型

一句话总结

提出首个面向交互式直播视频的全模态基准 LiViBench(3168 个视频、3175 道 MCQ、24 个任务),设计了多智能体种子问题驱动的半自动标注流程,并构建了 LiVi-LLM-7B 模型(含 Video-to-Comment Retrieval 模块和两阶段指令微调),在 7B 规模下超越了 72B 开源模型。

研究背景与动机

领域现状

多模态大语言模型(MLLMs)在通用视频理解上取得了显著进展,Video-MME、LongVideoBench、MLVU 等基准推动了模型能力的持续提升。然而,现有视频基准主要聚焦于非交互式内容——电影、录像、短视频等——这些内容缺乏观众与创作者之间的实时互动。

现有痛点

交互式视频被忽视:直播是在线视频消费中增长最快的形态(Instagram Live、TikTok Live 等),但没有任何基准专门评估模型对直播视频的理解能力

直播的独特特征未被覆盖:直播涉及送礼、实时对话、弹幕评论、多人连麦等交互行为,这些与普通视频有本质区别

标注流程不透明:现有基准要么完全依赖人工标注(高成本),要么完全依赖单一模型自动标注(引入偏差),缺乏设计良好的半自动流程

实时评论处理困难:直播往往伴随海量弹幕(数据集包含约 145 万条评论),对模型的上下文长度和信息抽取能力构成巨大挑战

核心矛盾

直播视频的核心特征是实时交互性(弹幕、打赏、连麦等),但现有 MLLM 和评测体系完全无法捕捉和评估这种交互理解能力。即使是顶级闭源模型 GPT-4o 也在直播场景表现有限。

本文切入角度

三管齐下:(1) 构建首个覆盖音频+语音+弹幕的全模态直播视频基准;(2) 设计多智能体+种子问题+人在回路的标注流程;(3) 开发带弹幕检索模块的专用模型 LiVi-LLM-7B。

方法详解

整体框架

工作包含三大部分:基准构建流程、指令微调策略、弹幕检索模块。

关键设计

1. 多智能体种子问题驱动的标注流程(Multi-Agent Seed-guided Pipeline)

功能:高效构建高质量的视频问答评测数据。

核心思路

(a) 多智能体视频描述:使用 LLaVA-Video、Qwen2.5-VL、Intern3VL、Seed1.5-VL 四个大参数模型组成多智能体系统,每个模型负责特定的描述任务,生成全面的视频描述。这避免了单一模型的偏差。

(b) 种子问题库: - 先用闭源模型自动生成候选种子问题 - 人工审核删除不合理/过于简单的问题 - 形成 24 个任务的种子问题库

(c) 问题生成 + 人在回路: - 利用种子问题库和详细视频描述,模型为每个视频生成候选问题 - 人工筛选和修改模糊/过简单/不相关的问题 - 模型和人工分别提供答案 - 最终人工进行全面质量控制

设计动机:兼顾标注效率和质量——多智能体减少单模型偏差,种子问题保证可控性,多阶段人在回路确保标注质量。

2. Video-to-Comment Retrieval (VCR) 模块

功能:从海量弹幕中检索与视频内容最相关的评论。

核心思路: - 均匀采样视频帧,使用 Chinese-CLIP 提取帧嵌入 - 使用文本编码器将所有弹幕编码为文本嵌入 - 计算帧嵌入与文本嵌入的相似度,获取每帧对应的 top-k 相关评论 - 将所有检索到的评论按时间顺序排列,与问题一起作为文本上下文输入模型

设计动机:直播弹幕数量巨大(平均每个视频成百上千条),直接输入会溢出上下文。VCR 通过视觉-文本相似度检索,仅保留与当前视频内容最相关的评论,解决了信息过载问题。

3. 两阶段指令微调策略

功能:提升开源 MLLM 对交互式直播视频的理解能力。

核心思路

模型架构:以 Qwen2.5-Omni 为初始化权重,使用 Qwen2.5-VL 视觉编码器提取视频 token,Qwen2-Audio 编码音频 token,通过 Transformer Decoder 融合后输入 LLM。

Stage 1:领域对齐 - 使用 37953 条机器标注的合成样本 - 同时加入通用视频数据保持泛化能力 - 目标:将模型对齐到交互式视频领域

Stage 2:精细调优 - 使用 11180 条人工精修样本 - 进一步提升模型的准确性和鲁棒性

设计动机:两阶段策略平衡了数据量和质量——第一阶段用大量合成数据快速学习领域知识,第二阶段用少量高质量数据提升精度。

基准任务设计

24 个任务分为 5 大类: - 粗粒度感知(4 个任务):场景、动作、外观等基本理解 - 细粒度感知(6 个任务):多人互动、行为细节、时序变化 - 知识问答(3 个任务):需要外部知识的推理 - 通用推理(4 个任务):因果推理、情绪分析等 - 直播特定任务(7 个任务):弹幕理解、打赏识别、连麦互动等

实验关键数据

主实验

模型 参数量 Overall Coarse Fine Know Reason Livestream
GPT-4o - 56.3 67.0 66.5 57.6 55.2 47.4
Gemini 2.5 Pro - 56.1 65.0 68.4 58.1 51.3 48.2
Seed1.5-VL - 66.2 70.9 71.4 68.8 70.7 59.1
Qwen2.5-VL-72B 72B 62.3 73.4 72.4 61.9 64.6 52.0
InternVL3-78B 78B 64.4 72.0 69.8 65.8 69.3 56.3
InternVL3-38B 38B 64.1 70.9 72.6 66.6 68.3 54.5
LiVi-LLM-7B 7B 64.4 70.1 68.7 62.8 63.6 60.9
Qwen2.5-Omni-7B 7B 60.3 68.1 68.5 59.4 60.7 53.1

关键发现: - LiVi-LLM-7B 在 7B 规模下达到 64.4%,与 InternVL3-78B 持平 - 在 Livestream 特定任务上以 60.9% 获得最佳成绩,超越所有闭源和大规模开源模型 - GPT-4o 和 Gemini 2.5 Pro 在直播任务上表现有限(47.4% 和 48.2%)

消融实验:模态影响分析

模型 V(仅视频) +A(+音频) +S(+语音/弹幕) Livestream(V) Livestream(+S)
LLaVA-Video-7B 52.6 NA 55.4↑ 43.5 48.4↑
MiniCPM-o-26 56.0 54.7 57.9↑ 46.5 51.2↑
Qwen2.5-Omni-7B 57.8 60.3↑ 60.2↑ - 53.1
LiVi-LLM-7B - - 64.4 - 60.9

通用视频基准表现

模型 Video-MME LongVB MLVU VideoEval-Pro
InternVL3-8B 71.2 60.0 73.8 31.2
Qwen2.5-VL-7B 72.3 61.4 72.3 31.5
LiVi-LLM-7B 73.1 60.8 73.5 33.2

LiVi-LLM-7B 在 Video-MME 和 VideoEval-Pro 上取得最佳成绩,说明领域微调不牺牲泛化能力。

关键发现

  1. 直播特定任务是所有模型最大的短板:即使 Seed1.5-VL(66.2% Overall)在 Livestream 上也仅 59.1%
  2. 弹幕/语音信息一致性提升所有类别:加入语音和弹幕后 Overall +2-5 个点
  3. 7B 模型通过领域微调可超越 72B 通用模型:证明领域知识比模型规模更重要
  4. VCR 模块有效解决弹幕过载问题:通过视觉-文本检索筛选相关评论

亮点与洞察

  1. 填补了交互式视频评测的空白:首次系统性地定义和评估直播视频理解能力
  2. 标注流程可复用:多智能体+种子问题+人在回路的方案可迁移到其他视频领域
  3. VCR 模块设计简洁有效:用 CLIP 做跨模态检索解决弹幕信息过载,几乎不增加计算开销
  4. 数据规模考究:145 万条弹幕、3168 个视频、24 个任务覆盖直播场景的方方面面
  5. 两阶段微调策略的实用性:合成数据对齐领域 + 人工数据精修,平衡了成本和效果

局限与展望

  1. 评测语言主要是中文:弹幕和 ASR 均为中文,跨语言泛化待验证
  2. 视频时长偏短:大部分视频在 1-5 分钟,而真实直播通常长达数小时
  3. 仅支持多选题形式:无法评估开放式生成能力
  4. VCR 模块依赖 Chinese-CLIP:检索质量受限于 CLIP 的跨模态对齐能力
  5. 领域覆盖偏娱乐:以聊天、唱歌、跳舞为主,电商直播、教育直播等场景覆盖不足

相关工作与启发

  • 多智能体标注的思路:用多个模型交叉验证减少偏差,比单一 GPT-4o 标注更可靠
  • 种子问题库的设计:可控的问题生成比完全自由生成质量更高,值得其他基准建设借鉴
  • 弹幕作为独特模态:实时评论包含观众视角的信息,是其他视频类型不具有的,开辟了新的研究方向
  • 领域微调 vs 规模扩展:7B 通过领域知识超越 72B 的实验结果,对资源受限场景有重要启示

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首个直播视频全模态基准,问题定义和任务设计都是全新的
  • 实验充分度: ⭐⭐⭐⭐⭐ — 评测 24 个模型,包含闭源和开源,覆盖多个通用基准
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富,但部分细节可以更精简
  • 价值: ⭐⭐⭐⭐⭐ — 填补重要空白,基准和模型都很有价值

相关论文