LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding¶

会议: AAAI 2026
arXiv: 2601.15016
代码: github
领域: 视频理解
关键词: 直播视频理解, 多模态基准, 实时评论, 指令微调, 全模态模型

一句话总结¶

提出首个面向交互式直播视频的全模态基准 LiViBench（3168 个视频、3175 道 MCQ、24 个任务），设计了多智能体种子问题驱动的半自动标注流程，并构建了 LiVi-LLM-7B 模型（含 Video-to-Comment Retrieval 模块和两阶段指令微调），在 7B 规模下超越了 72B 开源模型。

研究背景与动机¶

领域现状¶

多模态大语言模型（MLLMs）在通用视频理解上取得了显著进展，Video-MME、LongVideoBench、MLVU 等基准推动了模型能力的持续提升。然而，现有视频基准主要聚焦于非交互式内容——电影、录像、短视频等——这些内容缺乏观众与创作者之间的实时互动。

现有痛点¶

交互式视频被忽视：直播是在线视频消费中增长最快的形态（Instagram Live、TikTok Live 等），但没有任何基准专门评估模型对直播视频的理解能力

直播的独特特征未被覆盖：直播涉及送礼、实时对话、弹幕评论、多人连麦等交互行为，这些与普通视频有本质区别

标注流程不透明：现有基准要么完全依赖人工标注（高成本），要么完全依赖单一模型自动标注（引入偏差），缺乏设计良好的半自动流程

实时评论处理困难：直播往往伴随海量弹幕（数据集包含约 145 万条评论），对模型的上下文长度和信息抽取能力构成巨大挑战

核心矛盾¶

直播视频的核心特征是实时交互性（弹幕、打赏、连麦等），但现有 MLLM 和评测体系完全无法捕捉和评估这种交互理解能力。即使是顶级闭源模型 GPT-4o 也在直播场景表现有限。

本文切入角度¶

三管齐下：(1) 构建首个覆盖音频+语音+弹幕的全模态直播视频基准；(2) 设计多智能体+种子问题+人在回路的标注流程；(3) 开发带弹幕检索模块的专用模型 LiVi-LLM-7B。

方法详解¶

整体框架¶

工作包含三大部分：基准构建流程、指令微调策略、弹幕检索模块。

关键设计¶

1. 多智能体种子问题驱动的标注流程（Multi-Agent Seed-guided Pipeline）¶

功能：高效构建高质量的视频问答评测数据。

核心思路：

(a) 多智能体视频描述：使用 LLaVA-Video、Qwen2.5-VL、Intern3VL、Seed1.5-VL 四个大参数模型组成多智能体系统，每个模型负责特定的描述任务，生成全面的视频描述。这避免了单一模型的偏差。

(b) 种子问题库： - 先用闭源模型自动生成候选种子问题 - 人工审核删除不合理/过于简单的问题 - 形成 24 个任务的种子问题库

(c) 问题生成 + 人在回路： - 利用种子问题库和详细视频描述，模型为每个视频生成候选问题 - 人工筛选和修改模糊/过简单/不相关的问题 - 模型和人工分别提供答案 - 最终人工进行全面质量控制

设计动机：兼顾标注效率和质量——多智能体减少单模型偏差，种子问题保证可控性，多阶段人在回路确保标注质量。

2. Video-to-Comment Retrieval (VCR) 模块¶

功能：从海量弹幕中检索与视频内容最相关的评论。

核心思路： - 均匀采样视频帧，使用 Chinese-CLIP 提取帧嵌入 - 使用文本编码器将所有弹幕编码为文本嵌入 - 计算帧嵌入与文本嵌入的相似度，获取每帧对应的 top-k 相关评论 - 将所有检索到的评论按时间顺序排列，与问题一起作为文本上下文输入模型

设计动机：直播弹幕数量巨大（平均每个视频成百上千条），直接输入会溢出上下文。VCR 通过视觉-文本相似度检索，仅保留与当前视频内容最相关的评论，解决了信息过载问题。

3. 两阶段指令微调策略¶

功能：提升开源 MLLM 对交互式直播视频的理解能力。

核心思路：

模型架构：以 Qwen2.5-Omni 为初始化权重，使用 Qwen2.5-VL 视觉编码器提取视频 token，Qwen2-Audio 编码音频 token，通过 Transformer Decoder 融合后输入 LLM。

Stage 1：领域对齐 - 使用 37953 条机器标注的合成样本 - 同时加入通用视频数据保持泛化能力 - 目标：将模型对齐到交互式视频领域

Stage 2：精细调优 - 使用 11180 条人工精修样本 - 进一步提升模型的准确性和鲁棒性

设计动机：两阶段策略平衡了数据量和质量——第一阶段用大量合成数据快速学习领域知识，第二阶段用少量高质量数据提升精度。

基准任务设计¶

24 个任务分为 5 大类： - 粗粒度感知（4 个任务）：场景、动作、外观等基本理解 - 细粒度感知（6 个任务）：多人互动、行为细节、时序变化 - 知识问答（3 个任务）：需要外部知识的推理 - 通用推理（4 个任务）：因果推理、情绪分析等 - 直播特定任务（7 个任务）：弹幕理解、打赏识别、连麦互动等

实验关键数据¶

主实验¶

模型	参数量	Overall	Coarse	Fine	Know	Reason	Livestream
GPT-4o	-	56.3	67.0	66.5	57.6	55.2	47.4
Gemini 2.5 Pro	-	56.1	65.0	68.4	58.1	51.3	48.2
Seed1.5-VL	-	66.2	70.9	71.4	68.8	70.7	59.1
Qwen2.5-VL-72B	72B	62.3	73.4	72.4	61.9	64.6	52.0
InternVL3-78B	78B	64.4	72.0	69.8	65.8	69.3	56.3
InternVL3-38B	38B	64.1	70.9	72.6	66.6	68.3	54.5
LiVi-LLM-7B	7B	64.4	70.1	68.7	62.8	63.6	60.9
Qwen2.5-Omni-7B	7B	60.3	68.1	68.5	59.4	60.7	53.1

关键发现： - LiVi-LLM-7B 在 7B 规模下达到 64.4%，与 InternVL3-78B 持平 - 在 Livestream 特定任务上以 60.9% 获得最佳成绩，超越所有闭源和大规模开源模型 - GPT-4o 和 Gemini 2.5 Pro 在直播任务上表现有限（47.4% 和 48.2%）

消融实验：模态影响分析¶

模型	V(仅视频)	+A(+音频)	+S(+语音/弹幕)	Livestream(V)	Livestream(+S)
LLaVA-Video-7B	52.6	NA	55.4↑	43.5	48.4↑
MiniCPM-o-26	56.0	54.7	57.9↑	46.5	51.2↑
Qwen2.5-Omni-7B	57.8	60.3↑	60.2↑	-	53.1
LiVi-LLM-7B	-	-	64.4	-	60.9

通用视频基准表现¶

模型	Video-MME	LongVB	MLVU	VideoEval-Pro
InternVL3-8B	71.2	60.0	73.8	31.2
Qwen2.5-VL-7B	72.3	61.4	72.3	31.5
LiVi-LLM-7B	73.1	60.8	73.5	33.2

LiVi-LLM-7B 在 Video-MME 和 VideoEval-Pro 上取得最佳成绩，说明领域微调不牺牲泛化能力。

关键发现¶

直播特定任务是所有模型最大的短板：即使 Seed1.5-VL（66.2% Overall）在 Livestream 上也仅 59.1%
弹幕/语音信息一致性提升所有类别：加入语音和弹幕后 Overall +2-5 个点
7B 模型通过领域微调可超越 72B 通用模型：证明领域知识比模型规模更重要
VCR 模块有效解决弹幕过载问题：通过视觉-文本检索筛选相关评论

亮点与洞察¶

填补了交互式视频评测的空白：首次系统性地定义和评估直播视频理解能力
标注流程可复用：多智能体+种子问题+人在回路的方案可迁移到其他视频领域
VCR 模块设计简洁有效：用 CLIP 做跨模态检索解决弹幕信息过载，几乎不增加计算开销
数据规模考究：145 万条弹幕、3168 个视频、24 个任务覆盖直播场景的方方面面
两阶段微调策略的实用性：合成数据对齐领域 + 人工数据精修，平衡了成本和效果

局限与展望¶

评测语言主要是中文：弹幕和 ASR 均为中文，跨语言泛化待验证
视频时长偏短：大部分视频在 1-5 分钟，而真实直播通常长达数小时
仅支持多选题形式：无法评估开放式生成能力
VCR 模块依赖 Chinese-CLIP：检索质量受限于 CLIP 的跨模态对齐能力
领域覆盖偏娱乐：以聊天、唱歌、跳舞为主，电商直播、教育直播等场景覆盖不足

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个直播视频全模态基准，问题定义和任务设计都是全新的
实验充分度: ⭐⭐⭐⭐⭐ — 评测 24 个模型，包含闭源和开源，覆盖多个通用基准
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表丰富，但部分细节可以更精简
价值: ⭐⭐⭐⭐⭐ — 填补重要空白，基准和模型都很有价值