Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search¶

会议: CVPR 2026
arXiv: 2601.13719
代码: 无
领域: 视频理解 / 长视频
关键词: 长视频理解, 音视频实体一致性, 层次化索引, 智能体搜索, 说话人识别

一句话总结¶

提出 HAVEN 框架，通过音视频实体一致性和层次化视频索引（全局-场景-片段-实体四层），配合智能体搜索机制在 LVBench 上达到 84.1% 准确率，尤其在推理类别达 80.1%。

研究背景与动机¶

领域现状：长视频理解面临极长上下文窗口挑战。RAG 方法和智能体框架虽有进展，但存在信息碎片化和全局连贯性丧失问题。
现有痛点：现有检索驱动方法基于孤立信号（片段级字幕）检索，碎片化或冗余证据严重削弱全局叙事连贯性。缺乏层次化视频表征使智能体缺少多层推理所需的结构化上下文。
核心矛盾：简单数据库（帧、字幕、实体）需要大量迭代检索才能恢复跨片段连续性，引入不必要的复杂度和计算成本。
本文目标：从碎片化检索转向连贯的结构化理解。
切入角度：利用说话人识别作为实体一致性的强信号——说话人身份在视觉线索退化时（遮挡、视角变化等）仍保持信息量。
核心 idea：音视频实体一致性 + 四层层次化索引 + 目标驱动的智能体搜索。

方法详解¶

整体框架¶

离线构建四层数据库 \(\mathcal{D} = \{\tilde{\mathcal{C}}, \tilde{\mathcal{E}}, \tilde{\mathcal{S}}, \tilde{\mathcal{G}}\}\)（片段、实体、场景、全局），在线时智能体通过 think-act-observe 循环在层次间导航检索和推理。

关键设计¶

音视频实体一致性:
- 功能：维护跨时间和跨模态的实体语义一致性
- 核心思路：用 WhisperX 进行 ASR 和说话人分割，获得时间戳化的转录和一致的说话人标签。实体提取后进行两阶段合并：(1) 嵌入聚类形成候选组；(2) LLM 审核每个聚类进行规范化或拆分。当多个片段共享同一说话人标签时，优先合并对应的角色实体。
- 设计动机：说话人身份在视觉线索退化（遮挡、镜头切换、外观变化）时仍然可靠，可作为跨片段实体关联的"粘合剂"。
四层层次化数据库:
- 功能：支持多粒度的灵活检索
- 核心思路：(1) 片段层：30秒固定窗口，包含文本描述和视觉嵌入；(2) 实体层：规范化实体及其关联片段的重新描述；(3) 场景层：LLM 自适应聚合语义相关片段为场景摘要；(4) 全局层：从场景集生成全局摘要。
- 设计动机：不同查询类型需要不同粒度的信息——"视频讲什么"需要全局，"12:00发生了什么"需要片段级。
多粒度工具集的智能体搜索:
- 功能：查询驱动的自适应多层检索和推理
- 核心思路：五个工具：全局场景浏览 \(T_{scene}\)、片段字幕搜索 \(T_{caption}\)、片段视觉搜索 \(T_{visual}\)、实体搜索 \(T_{entity}\)、检查工具 \(T_{inspect}\)（含文本和视觉两种模式）。智能体初始化为全局摘要，多轮迭代中动态选择工具。
- 设计动机：低成本文本检索优先，高成本视觉检查仅在需要时使用。

损失函数 / 训练策略¶

纯推理框架，无训练。数据库离线构建，推理时智能体在线搜索。

实验关键数据¶

主实验¶

方法	LVBench 总体	推理类别
HAVEN (2fps)	84.1	80.1
DVD w/ subtitle	76.0	68.7
Seed1.5-VL-200B	64.6	63.7
OpenAI o3	57.1	50.8

消融实验¶

配置	LVBench 总体	说明
完整 HAVEN	84.1	最优
无音频实体一致性	下降	实体碎片化
无层次化索引	下降	检索效率低

关键发现¶

在最具挑战性的推理类别上 80.1%，大幅超越 DVD（68.7%）
说话人身份是关键——Figure 3 展示外观剧变的角色通过说话人标签正确关联
2fps 帧率下性能从 81.0 提升到 84.1，更密集采样提供更多视觉证据

亮点与洞察¶

说话人身份作为跨模态粘合剂：优雅地利用了音频信号中被忽视的说话人一致性
离线-在线解耦：层次化数据库离线构建，推理时仅需轻量工具调用
实用性强：对话密集内容（纪录片、剧集、vlog）特别有效

局限与展望¶

依赖 ASR 和说话人分割的准确性，在嘈杂音频环境下可能退化
30秒固定片段划分可能不适合所有视频类型
缓存内容有限，更多实验细节待查阅完整论文
数据库构建的计算成本和存储开销未详细分析

评分¶

新颖性: ⭐⭐⭐⭐ 音视频实体一致性和说话人身份利用是新颖贡献，层次化索引设计系统
实验充分度: ⭐⭐⭐ 缓存有限，LVBench 结果突出但其他基准结果不完整
写作质量: ⭐⭐⭐⭐ 框架图清晰，案例分析直观，方法描述有条理
价值: ⭐⭐⭐⭐ 长视频理解的实用框架，说话人身份利用思路可迁移到其他多模态场景