HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding¶

会议: CVPR 2025
arXiv: 2503.08585
代码: 无（有 Project page）
领域: 视频理解
关键词: 视频理解, Q-Former, 层次化, 任务感知, 记忆库

一句话总结¶

提出 HierarQ，一种任务感知的层次化 Q-Former 框架，通过双流语言引导特征调制器（实体流 + 场景流）和短/长期记忆库实现自回归式逐帧视频处理，无需帧采样即可绕过 LLM 上下文长度限制，在 10 个视频理解基准上取得 SOTA 或接近 SOTA 的性能。

研究背景与动机¶

当前多模态大语言模型（MLLM）在中长视频理解中面临三大瓶颈：

上下文长度限制：LLM 的上下文窗口限制了可处理的帧数，延长上下文虽可行但计算成本极高且难以达到理论承诺
帧采样的信息丢失：常用的帧采样（uniform/key-frame）在长视频中可能遗漏关键信息，且缺乏任务相关性——模型盲目处理所有帧，无法优先关注与任务相关的内容
时空压缩的过度简化：token 压缩、时空池化等方法虽减少 token 数量，但可能丢失关键细节

HierarQ 的核心思路是：像人类认知一样，在观看视频时同时关注帧级实体细节（谁在做什么）和跨帧场景上下文（事件如何演进），并根据任务（prompt）动态调整关注重点。通过自回归逐帧处理，完全避免帧采样。

方法详解¶

整体框架¶

给定视频 \(V\) 和文本 prompt \(T_P\)，HierarQ 的处理流程为： 1. 逐帧通过冻结的 ViT 提取视觉特征 \(f_i = \mathcal{V}(v_i)\) 2. 双流特征调制器对特征进行任务相关的调制 3. 调制后的特征存入短期/长期记忆库 4. 层次化 Q-Former（HierarQ）从记忆库中查询并融合信息 5. 最终时间步的输出经 FC 层投影后送入 LLM 生成回答

关键设计¶

双流语言引导特征调制器（Two-stream Feature Modulator）:
- 功能：根据 prompt 的语义动态调制每帧的视觉特征，使模型"重点关注"与任务相关的帧
- 核心思路：
  - 实体引导调制器 \(L_f^e\)：从 prompt 中提取名词（人/物），用 BERT 编码为 \(T_P^e\)，通过交叉注意力与帧特征交互：\(f_i^e = C.Attn(T_P^e, f_i, f_i)\)。使帧聚焦于 prompt 中提及的实体
  - 场景引导调制器 \(L_f^s\)：用完整 prompt 的 BERT 编码 \(T_P^s\)，通过交叉注意力：\(f_i^s = C.Attn(T_P^s, f_i, f_i)\)。捕获更宏观的场景级关系
- 设计动机：实体流和场景流关注不同粒度：实体流在帧内定位"谁/什么"，场景流理解"事件/关系"。两者互补——实体细节支撑场景理解。轻量级 Transformer 设计保持高效
短期/长期记忆库（Short/Long-term Memory Banks）:
- 功能：为 Q-Former 提供丰富的时间上下文，平衡即时细节和长期演化
- 核心思路：
  - 短期记忆 \(M_e\)：存储实体调制后的视觉特征和 query 历史，使用 FIFO 更新（达到容量 \(M\) 时丢弃最旧条目），代价低廉
  - 长期记忆 \(M_s\)：存储场景调制后的特征，使用 Memory Bank Compression (MBC) 更新——找到相似度最高的相邻 token 对 \(k = \arg\max_t \cos(f_t, f_{t+1})\) 并取均值合并，保留时序顺序同时压缩冗余
- 设计动机：实体信息是帧级的短期细节，FIFO 足够（旧帧的实体信息不重要）。场景信息需要跨越整个视频的长期上下文，简单 FIFO 会丢失关键场景连续性，需要更智能的压缩策略
层次化 Q-Former（HierarQ）:
- 功能：将实体级和场景级信息层次化整合，输出固定数量（32）的 token 给 LLM
- 核心思路：包含两个 Q-Former：
  - 实体级 \(QF_e\)：标准 Q-Former，含 self-attention（query 间交互 + 短期 query 记忆）+ cross-attention（query 与短期视觉记忆交互），总结帧级实体信息
  - 场景级 \(QF_s\)：扩展版 Q-Former，含 4 个子模块：①cross-attention（与长期视觉记忆交互）→ ②self-attention（与长期 query 记忆交互）→ ③self-attention（query 自身交互）→ ④cross-attention（与 \(QF_e\) 的输出交互），实现从实体到场景的信息整合
- 设计动机：层次化设计模拟人类认知——先关注具体实体，再在场景层面理解实体间关系。最后一步的跨 Q-Former 交叉注意力 \(Q=\hat{z}_t^s, K=z_t^e, V=z_t^e\) 是将短期实体细节注入长期场景理解的关键。最终只输出 \(N\) 个 token（而非 \(N \times T\)），从根本上解决了 LLM 上下文限制

损失函数 / 训练策略¶

使用标准交叉熵损失训练视频-文本对。冻结 ViT G/14 (EVA-CLIP) 和 Vicuna 7B，微调特征调制器 + HierarQ + FC 层，LLM 用 LoRA (rank=32) 微调。HierarQ 权重从 InstructBLIP 初始化。4 块 A100 GPU 训练。

实验关键数据¶

主实验¶

中长视频理解 (LVU/Breakfast/COIN):

模型	LVU Avg	Breakfast	COIN
S5	60.9	90.7	90.8
MA-LMM	61.1	93.0	93.2
VideoMamba	57.8	94.3	86.2
HierarQ	67.9 (+6.8)	97.4 (+3.1)	96.0 (+2.8)

短视频问答 (MSRVTT-QA / MSVD-QA / ActivityNet-QA):

模型	MSR-QA	MSVD-QA	ANet-QA
Mirasol3B	50.4	-	51.1
MA-LMM	48.5	60.6	49.8
HierarQ	54.1 (+3.7)	66.2 (+5.6)	57.1 (+6.0)

消融实验¶

各组件贡献 (LVU / Breakfast):

配置	LVU	Breakfast	说明
Baseline (MA-LMM)	60.7	93.0	仅标准 Q-Former + 记忆
+ Entity Mod.	58.7	88.5	仅实体调制反而下降（缺场景上下文）
+ Prompt Mod.	62.0	94.1	场景调制单独有效
+ HierarQ + 双流	66.8	96.1	层次化整合大幅提升
+ LLM LoRA	67.9	97.4	完整模型

记忆更新策略:

短期更新	长期更新	LVU	Breakfast
FIFO	FIFO	65.2	93.6
MBC	MBC	67.4	97.3
FIFO	MBC	67.9	97.4

关键发现¶

单独使用实体调制器反而降低性能（缺少场景上下文），但与场景调制器和 HierarQ 组合时效果最佳——验证了"实体细节补充场景理解"的层次化设计
长期记忆比短期记忆更重要（62.5 vs 61.8），但两者组合达最优（66.8）
短期记忆最佳长度 ~10，超过后过多的实体信息反而干扰场景理解
隔离 \(QF_e\) 和 \(QF_s\)（取消层次交互改为拼接）导致 LVU 下降 3.6%，证明层次化建模的必要性
增加参数到与 HierarQ 相同量级的单 Q-Former 仍落后 4.7%——提升来自架构而非参数量
随视频长度增加，MA-LMM 性能持续下降，而 HierarQ 保持稳定

亮点与洞察¶

认知科学启发的设计：实体流/场景流的双流设计直接对应人类的"局部注意 + 全局理解"认知模式
工程上的优雅：自回归处理 + 固定 N token 输出，从根本上解决了 LLM 上下文长度问题（\(N\) 而非 \(N \times T\)）
任务感知：通过 prompt 引导特征调制，不同任务会自动"关注"不同帧——这比盲目处理所有帧更符合人类观看视频的方式
记忆策略的精细化：短期用 FIFO、长期用 MBC 的差异化更新策略设计简洁有效

局限与展望¶

依赖 BERT 提取实体名词，NPL 解析错误会影响实体流的准确性
虽然框架通用，但消融实验主要在中长视频上进行，对超长视频（>10min）的验证较少
未探索记忆库容量的自适应调整（当前固定 M=10）
HierarQ 从 InstructBLIP 初始化，对预训练数据有一定依赖

评分¶

新颖性: ⭐⭐⭐⭐ 层次化 Q-Former + 双流任务感知调制的组合设计新颖，但各组件思路有迹可循
实验充分度: ⭐⭐⭐⭐⭐ 10 个基准覆盖视频理解/QA/描述三大任务，消融极其详尽
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图示专业，消融分析深入
价值: ⭐⭐⭐⭐⭐ 为中长视频 MLLM 提供了实用且高效的方案，在多数基准 SOTA