HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics¶

会议: ICCV 2025
arXiv: 2408.17443
代码: GitHub
领域: 视频理解
关键词: 长视频理解, 情景压缩, 语义检索, 视频问答, 即插即用模块

一句话总结¶

提出 HERMES 框架，通过情景压缩器 (ECO) 和语义检索器 (SeTR) 两个通用模块分别捕获视频的情景记忆和语义信息，既可作为独立系统达到 SOTA，也可即插即用地增强现有视频语言模型，同时降低推理延迟达 43% 和内存消耗达 46%。

研究背景与动机¶

长视频理解（分钟级至小时级）面临三大核心挑战：

时间复杂度：需处理成千上万帧，现有方法计算代价高昂。

语义理解：除了逐帧事件外，还需理解高层叙事结构和主题概念。

内存约束：在有限计算资源下同时解决上述两个问题极困难。

现有长视频方法多从短视频方法（池化、3D 卷积等）简单扩展而来，没有充分考虑长视频的独特性质。作者受人类认知启发，区分了视频中的两类信息：

情景信息 (Episodic)：具体的、时间有序的事件序列（如"青少年在棒球场互动"）
语义信息 (Semantic)：跨越具体时刻的高层主题和概念（如"青年体育文化"）

现有方法通常只关注其中一类，HERMES 的动机是同时捕获两类信息，实现更全面的长视频理解。

方法详解¶

整体框架¶

HERMES 采用流式处理架构：视频按窗口逐步输入冻结的 ViT-G/14 编码器提取特征，然后分别经过 ECO（情景压缩）和 SeTR（语义检索）处理，最后将两类表示拼接后送入冻结的 LLM（Vicuna-7B）生成文本输出。

形式化表述：$U = G(ECO(V, I), SeTR(V))$，其中 $U$ 为综合理解，$G$ 为整合函数。

关键设计¶

ECO: 情景压缩器 (Episodic COmpressor)

维护一个最大容量为 $E$ 的内存缓冲区。每当新窗口特征 $\mathcal{W}_k$ 到来时：

$$\mathcal{M} = \begin{cases} \mathcal{M} \oplus \mathcal{W}_k & \text{if } \|\mathcal{M}\| + \|\mathcal{W}_k\| \leq E \\ \text{ECO}(\mathcal{M}, \mathcal{W}_k) & \text{otherwise} \end{cases}$$

压缩算法：(1) 拼接缓冲区和新特征 → (2) 找到余弦相似度最高的帧对 $(i^*, j^*)$ → (3) 取均值合并 → (4) 移除被合并帧 → 重复至帧数 $\leq E$。

核心思想：最相似的帧包含冗余信息，合并它们在减少数据量的同时保留情景结构。最优 episode 数为 20。

SeTR: 语义检索器 (Semantics reTRiever)

捕获分散在整个视频中的高层语义信息。给定特征张量 $F \in \mathbb{R}^{B \times N \times T \times C}$：

归一化特征
按步长 $k$ 分为两组：$X$（每第 $k$ 帧）和 $Y$（其余帧）
计算 $X$ 和 $Y$ 之间的点积相似度
将 $Y$ 中每帧合并到 $X$ 中最相似的帧

效果：帧数从 $N$ 降至 $N/k$，最优 keep ratio 为 20%（即 $k=5$，减少 80% 的帧）。

层级 Q-Former
- 情景 Q-Former：对 ECO 输出的情景记忆执行自注意力 + 交叉注意力，再通过类似 ECO 的合并过程压缩 query
- 层级 Frame-to-Sequence Q-Former：先用 frame Q-Former 独立增强每帧语义，再用 video Q-Former 跨帧聚合

最终两类 query 拼接，经线性投影后送入 LLM：$U = W[Q; Q_{sem}] + b$

损失函数 / 训练策略¶

标准的语言建模损失（交叉熵），支持零样本和全监督两种评估设置。ECO 和 SeTR 不需要额外学习即可作为即插即用模块，集成到现有模型时仅需极少适配。

实验关键数据¶

主实验¶

MovieChat-1k 零样本 VQA

模型	Global Acc.	Global Score	Breakpoint Acc.
MovieChat	63.7	3.15	48.1
Video-ChatGPT	58.7	2.89	47.8
Video-LLaMA	56.3	2.72	45.8
HERMES	78.6	4.23	57.3
HERMES (全监督)	84.9	4.40	65.8

相比前 SOTA 提升 +14.9% (Global Acc.)。

LVU + Breakfast + COIN 分类

模型	LVU 平均	Breakfast	COIN
MA-LMM	63.0	93.0	93.2
S5	59.2	90.7	90.8
HERMES	70.3	95.2	93.5

LVU 上相比前 SOTA 提升 +7.3%。

消融实验¶

ECO 内存更新策略对比

策略	Acc.	Score
无 ECO	55.1	3.55
随机保留	76.9	4.13
FIFO	77.1	4.15
ECO	78.6	4.23

语义压缩方法对比

方法	Acc.	Score
无 SeTR	73.3	4.09
MaxPool	70.4	3.99
AvgPool	73.3	4.04
K-Means	75.7	4.11
SeTR	78.6	4.23

即插即用效果（集成到现有 SOTA 模型）

基础模型	+ECO 精度变化	+ECO 延迟变化	+SeTR 精度变化
MA-LMM	+3.4%	-43%	+3.8%
LongVA	+0.08%	-30%	+0.45%
LLaVA-OV	+0.67%	-35%	+1.04%

关键发现¶

ECO 和 SeTR 各自独立地提升性能，组合使用效果叠加——说明情景信息和语义信息确实互补。
ECO 的余弦相似度合并策略优于随机保留和 FIFO，验证了"合并最冗余帧"的直觉。
SeTR 大幅优于 MaxPool/AvgPool 等朴素方法，因为它是基于相似度的选择性合并，保留最具代表性的帧。
层级 Q-Former（95.2%）显著优于单独的 frame/video Q-Former（93.2%/94.1%）。
episode 数 20、keep ratio 20% 在不同数据集上均为最优，说明超参数鲁棒性良好。
HERMES 仅处理 14k 帧视频中的 100 帧（0.7%），而 MovieChat 处理 2048 帧，但 HERMES 精度更高。

亮点与洞察¶

情景 vs 语义的认知双通路设计是全文最大贡献——这一认知科学启发的框架优雅地分离了两类互补信息。
ECO 作为即插即用模块的通用性出色：集成到 MA-LMM 后精度提升 3.4% 的同时推理加速 43%，甚至不牺牲任何内存。
SeTR 的 keep ratio 可低至 20%（丢弃 80% 帧），说明长视频确实存在大量冗余。
定性分析显示 HERMES 能诚实地表达不确定性（"I'm not sure"），而非像其他模型一样产生幻觉。

局限与展望¶

ECO 和 SeTR 依赖启发式规则（余弦相似度合并/步长采样），可能在某些微妙的时间细节上失效。
两个模块独立运行，缺乏联合优化，可能产生冗余。
由于计算限制，未在大规模视频数据上预训练，限制了与 LLaVA-OneVision 等模型在 VideoMME 上的直接对比。
LLM 后端仅使用 Vicuna-7B，未探索更强的语言模型。

评分¶

新颖性: ⭐⭐⭐⭐ 情景+语义双通路的认知启发设计新颖，即插即用验证有说服力
实验充分度: ⭐⭐⭐⭐⭐ 5 个数据集 + 3 个 SOTA 模型集成 + 详尽消融
写作质量: ⭐⭐⭐⭐ 叙述流畅，认知科学动机阐述清楚
价值: ⭐⭐⭐⭐ ECO 和 SeTR 作为即插即用模块具有实际应用价值