SEAL: SEmantic Attention Learning for Long Video Representation¶

会议: CVPR 2025
arXiv: 2412.01798
代码: 无
领域: Video Understanding
关键词: 长视频理解, 语义分解, 注意力学习, 视频问答, 时序定位

一句话总结¶

提出SEAL统一长视频表征方法，将视频分解为场景/物体/动作三种语义token，通过query感知的子集选择优化来平衡相关性与多样性，在LVBench上以45.9%超越Qwen2-VL-72B的41.3%。

研究背景与动机¶

长视频理解面临三大挑战： - 计算复杂度高：小时级视频的帧数和像素量远超现有硬件承载能力 - 时间冗余严重：场景和物体变化缓慢，大量帧携带重复信息 - 跨任务泛化：有效表征需同时支持细粒度事实检索和高层推理

现有方法的局限： - 均匀采样丢失关键信息且产生冗余 - 内存银行方法合并相似帧但仍依赖任务特定设计 - 仅关注单一任务（如QA或时序定位）的模型难以泛化

人脑启发：选择性注意新信息、在线持续更新记忆、根据任务动态调整关注焦点。SEAL据此设计了语义分解+注意力学习的统一框架。

方法详解¶

整体框架¶

SEAL包含两个核心步骤： 1. 语义分解：将长视频从原始帧分解为场景token \(\mathbf{T}_{\text{scene}}\)、物体token \(\mathbf{T}_{\text{object}}\) 和动作token \(\mathbf{T}_{\text{action}}\) 三种压缩语义表示 2. 注意力学习：基于query的子集选择优化，从全部语义token中选出固定大小的子集，送入视觉头或MLLM头完成下游任务

关键设计1：三类语义token分解¶

功能：将高维密集视频压缩为紧凑的语义实体集合，大幅降低计算量
核心思路：
- 场景token：均匀采样 \(N_{\text{scene}}\) 帧捕获背景环境信息
- 动作token：用SAM-2等类无关追踪器提取动态轨迹（tracklet），短于 \(L_{\min}\) 的丢弃，长于 \(L_{\max}\) 的切分，对每条轨迹取帧间bounding box的空间并集
- 物体token：在关键帧上用SAM进行类无关分割，获取静态物体mask
设计动机：三类token分别回答"在哪里"（场景）、"是什么"（物体）、"怎么做"（动作），覆盖视频理解的核心维度。这种分解比粗暴采样更具信息效率，且与任务无关

关键设计2：子集选择注意力学习¶

功能：从大量候选token中选出兼顾query相关性和token多样性的最优子集
核心思路：形式化为组合优化问题 \(T_s^* = \arg\max_{T_s \subset T_G} \alpha \sum_{t_s \in T_s} R(t_s, q) + (1-\alpha) \sum_{t_i, t_j \in T_s, i \neq j} \frac{1}{S(t_i, t_j)}\)，其中 \(R(\cdot)\) 为BLIP-2计算的token-query余弦相似度，\(S(\cdot)\) 为token间余弦相似度
设计动机：单纯按相关性选取会导致token集合高度冗余（都集中在某个区域），加入多样性项确保选出的token覆盖视频的不同方面。超参 \(\alpha=0.9\) 平衡两个目标

关键设计3：流式与全局双模式¶

功能：支持任意长度视频的在线处理
核心思路：全局模式一次处理全部token输出统一表征；流式模式用固定大小滑动窗口，每步对当前窗口token和前一步选定子集的并集执行注意力学习：\(T_{\text{sub}}^t = \text{Attention\_Learning}(T_t \cup T_{\text{sub}}^{t-1})\)
设计动机：全局模式适合离线分析，流式模式支持实时场景（如边看电影边回答问题），使表征不受视频长度限制

损失函数¶

下游任务特定：时序定位使用IoU距离+focal loss训练分类+回归头；视频QA使用MLLM的自回归next-token prediction负对数似然损失。

实验关键数据¶

主实验1：LVBench视频QA（小时级视频）¶

模型	LLM大小	Overall	KIR	EU	Sum	ER	Rea	TG
Qwen2-VL	72B	41.3	38.3	41.1	46.6	38.0	46.5	41.4
InternVL2	34B	39.6	43.4	39.7	41.4	37.4	42.5	31.4
SEAL	34B	45.9	51.5	41.3	39.7	47.9	43.3	32.3

SEAL以34B模型超越72B的Qwen2-VL 4.6%，在KIR和ER上分别领先8.1%和5.1%。

主实验2：Ego4D-NLQ时序定位（有限token约束）¶

模型	#Token	R@1 IoU=0.3	R@1 IoU=0.5	R@5 IoU=0.3	R@5 IoU=0.5
SnAG	450	13.44	9.23	34.02	23.04
SEAL	450	13.78	9.26	34.79	23.10
SnAG	200	10.03	6.35	26.56	16.90
SEAL	200	10.83	7.06	27.39	17.41

关键发现¶

语义分解有效降低冗余：参数量更小的模型反而超越更大模型
动作和物体token在KIR和ER任务上贡献最大
流式模式性能仅略低于全局模式，验证了在线表征更新的可行性
不依赖特定LLM架构，统一表征可接不同预测头

亮点与洞察¶

认知科学启发的设计：三类语义token与人脑对视频的注意力分配机制高度吻合
统一表征跨任务泛化：同一表征接不同头即可完成QA和时序定位，无需任务特定编码
小模型超大模型：表明视频理解中"看什么"比"模型多大"更重要，高效的信息选择可弥补参数量差距

局限与展望¶

语义分解依赖SAM-2等外部模型的质量，对非常规场景（运动模糊、遮挡严重）可能失效
子集选择优化是NP-hard，目前用贪心近似，可能非最优
因果推理类问题表现相对较弱（如"why"类型）
未探索视频对话/多轮交互场景

评分¶

⭐⭐⭐⭐ — 问题定义清晰，语义分解+注意力学习的设计优雅且实用，以34B模型在LVBench超越72B很有说服力。子集选择的贪心近似和外部模型依赖是主要弱点。