Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders¶

基本信息¶

arXiv: 2510.26027
会议: NeurIPS 2025
作者: Ali Rasekh, Erfan Bagheri Soula, Omid Daliran, Simon Gottschalk, Mohsen Fayyaz
机构: Leibniz University Hannover / L3S Research Center, Microsoft
代码: https://alirasekh.github.io/STAVEQ2/

一句话总结¶

提出 STAVEQ2，在 Vision Encoder 中堆叠参数高效的时序注意力模块（STA），解决现有 Video-LLM 在细粒度时序理解（如区分"从左到右拉"和"从右到左拉"）上的根本性架构缺陷，在 VITATECS/MVBench/Video-MME 上提升最高 5.5%。

背景与动机¶

现有 Video-LLM 在时序理解上存在根本缺陷： - Qwen2-VL：Vision Encoder 中只有空间注意力，将时序理解完全委托给 LLM - InternVideo2-Chat：有联合时空注意力但仍无法可靠区分时间方向性动作 - 实验证明：在 SSv2-T10（时序对立动作对）上，Qwen2-VL 7B 零样本仅 21.91%，InternVideo2 仅 30.60% - In-context learning 不但没帮助，反而降低性能——说明这是架构缺陷而非数据问题

核心问题¶

如何在不改变 LLM 的前提下，通过增强 Vision Encoder 的时序建模能力来提升 Video-LLM 的时间理解？

方法详解¶

STAVEQ2 架构¶

在 Qwen2-VL 的 ViT 每个 transformer block 中，spatial attention 之后插入 temporal attention。

空间注意力（原有）：每帧内 $N$ 个 patch 之间做 self-attention $$S_t^{(m)} = A_t^{(m)} V_t^{(m)} + X_t^{(m-1)}$$

时序注意力（新增）：每个 patch 跨 $T$ 帧做 self-attention $$Z_i^{(m)} = A_i'^{(m)} V_i'^{(m)} + Y_i^{(m)}$$ 其中 $Y_i^{(m)} = [S_{1,i}^{(m)}, \ldots, S_{T,i}^{(m)}]^\top$

最终：$X^{(m)} = \text{MLP}(\text{LN}(Z^{(m)})) + Z^{(m)}$

关键设计¶

参数高效：时序注意力头数仅为空间的 1/4（head scale = 0.25），大幅减少参数
1D RoPE：时序注意力使用 1D RoPE（vs. 空间的 2D RoPE）编码时间位置
零初始化：输出投影层初始化为零，初始状态等价于原始模型
两阶段训练：
Stage 1：冻结所有参数，仅训练时序注意力块 + LayerNorm
Stage 2：加入 LoRA adapter 联合训练整个模型
全层部署：所有 32 个 transformer block 都加入 STA 效果最好

实验关键数据¶

SSv2 动作识别 (Vision-only)¶

模型	SSv2 Acc.
InternVideo2 1B	77.1%
InternVideo2 6B	77.5%
InternVideo2 1B + STA	78.0% (+0.5%)

→ 1.3B 模型超越 6B 模型！

InternVideo2-Chat + STA (SSv2-T10)¶

方法	Acc.
InternVideo2-Chat 8B	84.17%
+ STA	95.18% (+11.01%)

STAVEQ2 在 Video-LLM Benchmarks¶

模型	VITATECS Dir.	MVBench	Video-MME (wo/w sub)
Qwen2-VL 7B	86.6	67.0	63.3 / 69.0
Qwen2.5-VL 7B	80.0	69.6	65.1 / 71.6
STAVEQ2 7B	87.6	70.1	66.8 / 71.8
Qwen2-VL 72B	87.8	73.6	71.2 / 77.8
STAVEQ2 72B	90.1	74.5	73.9 / 79.9
GPT-4o	–	–	71.9 / 77.2

→ STAVEQ2 72B 在 Video-MME 上超越 GPT-4o (+2.0/+2.7)

跨模型泛化¶

STAVEQ2.5 (Qwen2.5-VL + STA)：进一步提升
VideoRoPE + STA：互补增益
InternVideo2.5-Chat + STA：MVBench 75.7→76.8

亮点¶

问题分析透彻：系统性证明时序理解是架构缺陷而非数据问题（zero-shot + ICL + fine-tune 对比）
简洁且有效：仅在 ViT 中堆叠轻量时序注意力，不改 LLM
广泛泛化：在 Qwen2-VL/Qwen2.5-VL/InternVideo2/VideoRoPE 上均有效
新 SOTA：SSv2 动作识别新 SOTA（1.3B 超 6B），Video-MME 超 GPT-4o
Divided space-time attention 的复兴：证明了 TimeSformer 式分离注意力在 Video-LLM 中的价值

局限性¶

受资源限制，未从头预训练，仅做了微调验证
最大模型仅到 72B（尽管已超越了很多更大模型）
STA 增加了推理延迟（每层多一个时序注意力）
WebVid-QA 数据集质量可能限制训练效果

与相关工作的对比¶

vs. Qwen2-VL：Qwen2-VL 完全依赖 LLM 做时序理解，STAVEQ2 证明这不够
vs. InternVideo2：即使有联合时空注意力，也无法解决细粒度时间方向——需要专门的 divided attention
vs. ST-LLM：ST-LLM 将时空建模委托给 LLM，STAVEQ2 7B 在 MVBench 上高出 15.2 分
vs. TG-Vid：TG-Vid 用时间门控，效果有限且效率低；STAVEQ2 超出 13.7 分
vs. FastVID：FastVID 关注效率（剪枝 token），STAVEQ2 关注能力（增强时序），两者互补

启发与关联¶

Vision Encoder 是瓶颈：不能把所有时序理解甩给 LLM——在 token 送入 LLM 之前就应编码好时序信息
Divided vs. Joint Space-Time Attention：进一步验证了 TimeSformer 的分离注意力在 Video-LLM 场景中比 joint attention 更可控
与 Eyes Wide Open 的互补：Eyes Wide Open 做流式视频处理的 temporal KV cache 管理，STAVEQ2 做 encoder 级时序建模——可组合

评分¶

新颖性：★★★☆☆ — 分离时空注意力是已知方法，创新在于应用到 Video-LLM 的 encoder
技术深度：★★★★☆ — 问题分析深入，消融充分
实验完整度：★★★★★ — 4 模型 × 多 benchmark × 消融 × 注意力可视化
写作质量：★★★★☆ — 动机分析部分很有说服力