VideoLucy: Deep Memory Backtracking for Long Video Understanding¶

会议: NeurIPS 2025
arXiv: 2510.12422
代码: https://videolucy.github.io (有)
领域: 视频理解
关键词: 长视频理解, 层次化记忆, Agent系统, 记忆回溯, 视频问答

一句话总结¶

提出VideoLucy框架，通过层次化记忆结构和基于Agent的迭代回溯机制，模拟人类从粗到细的回忆过程，在多个长视频理解基准上大幅超越现有方法，甚至超过GPT-4o等商业模型。

长视频理解要求系统对视频中几乎所有细节具有全面的记忆和把握，任何信息缺失都可能导致回答不准确。现有Agent系统虽然绕过了传统视频MLLM的长输入限制，但面临两个关键挑战：

挑战一：逐帧建模无法捕捉时间上下文。 现有Agent系统通常对单帧生成文本描述，然后通过信息检索循环获取关键帧。但实际应用中，许多问题与连续帧的时间上下文密切相关，逐帧处理的时间理解能力较弱。

挑战二：稀疏采样导致关键信息丢失。 为降低密集逐帧描述的计算成本，现有系统采用稀疏帧采样（如VideoTree在Video-MME上仅用0.125 FPS）。即使对1小时视频（1 FPS）也需生成3600个描述，因此不得不妥协使用稀疏采样，这将导致大量关键细节信息的丢失。

VideoLucy的灵感来源于电影《超体》中主角Lucy获得了完美记忆能力——能回溯到生命中每一个细节。VideoLucy模拟人类从模糊到清晰的回忆过程，通过层次化记忆和迭代回溯实现对长视频的全面、深入理解。

VideoLucy包含三个核心组件：(1) 层次化记忆结构，实现从粗到细的多级视频表示和全面信息覆盖；(2) 赋予不同角色的Agent，负责描述、定位、指令和回答；(3) 迭代回溯机制，通过多阶段循环动态挖掘问题相关的深层记忆。

层次化记忆结构: 定义三层记忆，时间感知范围递减、细节粒度递增：
- 粗粒度长程记忆：大时间范围的概括描述（如每60秒一段）
- 细粒度短程记忆：较短时间段的详细描述
- 帧级超细记忆：单帧或极短片段的精细描述

每段视频的记忆通过 \(m_k = VidCap(v_k, p_k)\) 获得，其中 \(VidCap\) 为视频MLLM（如Qwen2.5-VL-7B），\(p_k\) 为指令提示。当 \(K=1\) 时退化为全局概览，\(K=N\) 时表示逐帧描述。该结构同时实现了多级表示和全面信息覆盖。

四类Agent:
- Captioning Agent：系统的"眼睛"，用MLLM将视频片段转换为文本描述
- Localization Agent：用LLM（DeepSeek-R1）在当前记忆中定位与问题最相关的时间段
- Instruction Agent：分析当前记忆中缺失的关键信息，生成引导性描述指令
- Answering Agent：基于当前记忆判断是否能自信回答，若不能则输出不确信标志
迭代回溯机制（Algorithm 1）:
- 稀疏粗粒度初始化：先生成全局粗粒度记忆，然后用Localization Agent筛选出与问题最相关的时间段
- 深度和广度探索：每次迭代中，Localization Agent定位最相关时间段 → Instruction Agent分析缺失信息并生成指令 → Captioning Agent重新生成当前深度记忆（更新）和更深层记忆（下探）→ 更新当前记忆列表
- Agent驱动循环：迭代持续直到Answering Agent认为信息充足可以自信回答，或达到最大迭代次数（默认5次）

VideoLucy是一个无需额外训练的推理时Agent系统，直接利用现成的开源模型（Qwen2.5-VL-7B用于描述，DeepSeek-R1用于文本推理）。不同基准的时间范围参数 \(T_c, T_f, T_{uf}\) 有不同设置。Agent通过精心设计的prompt实现角色分工。

基准	指标	VideoLucy	之前SOTA	提升
Video-MME (长视频)	Acc	66.8	65.0 (AdaReTake-72B)	+1.8
Video-MME (平均)	Acc	72.5	71.9 (GPT-4o)	+0.6
LVBench (整体)	Acc	58.8	53.3 (AdaReTake-72B)	+5.5
LVBench (KIR)	Acc	75.6	62.2 (AdaReTake-72B)	+13.4
MLVU	M-Avg	76.1	74.7 (VideoChat-Flash-7B)	+1.4
EgoMem (整体)	Acc	56.7	46.4 (VideoChat-Flash-7B)	+10.3

注：VideoLucy使用7B开源模型，超越了使用72B模型和GPT-4o等商业模型的方法。