跳转至

Sharper and Faster mean Better: Towards More Efficient Vision-Language Model for Hour-scale Long Video Understanding

会议: ACL 2025 (Long Paper)
arXiv: 无(仅ACL Anthology)
代码: https://huggingface.co/Tao-tse/Sophia
领域: 多模态VLM / 视频理解 / 模型压缩
关键词: 长视频理解, 帧剪枝, 层级注意力, 稀疏注意力, 镜头检测

一句话总结

提出Sophia模型处理小时级长视频:通过Shot-adaptive Frame Pruning(基于镜头分割的两阶段帧剪枝)精准选择查询相关帧,结合O(N)复杂度的Hierarchical Attention替代全注意力,在8/8个长视频benchmark中6个SOTA,且注意力FLOPs仅为InternVL2的1/17。

背景与动机

长视频(10分钟~1小时)给VLM带来三重挑战:(1) 上下文长度超限(数万视觉token);(2) 内存消耗巨大(二次方注意力);(3) 计算复杂度过高。已有方法要么压缩每帧token数(牺牲细节),要么均匀分割视频丢弃无关片段(忽视视频中事件/镜头的时间不均匀性)。

核心问题

如何在处理小时级视频时,既精准定位与查询相关的帧,又将注意力复杂度降到线性?

方法详解

整体框架

两大核心模块:(1) Shot-adaptive Frame Pruning:基于镜头检测自然分割视频→粗粒度剪枝无关镜头→细粒度去除镜头内冗余帧;(2) Hierarchical Attention:用分层稀疏注意力替代全注意力,O(N)复杂度且保持O(1)的信息传播距离(IPD)。

关键设计

  1. 镜头自适应帧剪枝(两阶段):
  2. 镜头检测: 使用预训练TransNet检测镜头切换点,将视频自然分割为不等长的镜头片段
  3. Inter-shot Pruning(镜头间剪枝): 取每个镜头中间帧的视觉嵌入,与查询文本的MLP映射做余弦相似度,丢弃α%最不相关的镜头
  4. Intra-shot Pruning(镜头内剪枝): 计算同一镜头内帧间的余弦相似度,去除β%冗余度最高的帧(如连续相同动作)
  5. 训练时用Gumbel Softmax实现可微索引

  6. Hierarchical Attention: 将视频token按帧分组,注意力分两个层级:(a) 帧内局部注意力(同帧token之间);(b) 帧间全局注意力(帧级摘要token之间)。类似Longformer但专为视频帧结构设计。关键理论保证:IPD=O(1)——任意两帧最多经过2层注意力即可交换信息(先汇聚到摘要→再分发),而普通滑动窗口注意力IPD=O(F/w)。用Triton自定义CUDA kernel实现。

损失函数 / 训练策略

  • 基于InternViT-300M编码器 + MLP投影器 + InternLM2-Chat-7B
  • 三阶段训练:投影器对齐 → 全参数微调 → 视频指令微调
  • 使用Gumbel Softmax使帧剪枝可微

实验关键数据

Benchmark Sophia 之前SOTA 提升
EgoSchema 64.4 54.9 (LongVU) +17.2%
MovieChat-1K 78.2 74.7 (LLaVA-OneVision) +4.7%
LongVideoBench 57.9 55.0 (InternVL2) +5.3%
LVBench 46.2 44.3 (LongVU) +4.3%
MLVU 68.3 65.4 (LongVU) +4.4%
Video-MME (Long) 47.1 45.5 (InternVL2) 最佳

注意力FLOPs对比(128帧输入):

模型 Attention FLOPs
LongVU 87.03T
InternVL2-8B 22.33T
Qwen2-VL-7B 19.06T
Sophia 2.64T
  • Sophia的注意力FLOPs仅为InternVL2的1/8.5,为LongVU的1/33
  • 128帧时内存约27GB vs InternVL2的70GB+

消融实验要点

  • Shot检测 vs 均匀分割: Shot-adaptive比均匀分割在EgoSchema上高3.2%
  • 两阶段剪枝: Inter+Intra都有贡献,去掉任一都掉分
  • Hierarchical vs Dense Attention: 性能基本持平(<1%差异),但FLOPs减10倍+
  • IPD理论验证: O(1)的IPD使得远距离帧也能高效交互信息

亮点

  • 镜头感知是核心创新: 利用视频的自然结构(镜头/场景切换)而非人为等分,更符合视频语义
  • 理论保证的稀疏注意力: O(N)复杂度+O(1)的IPD,兼顾效率和建模能力
  • 工程落地: Triton kernel实现,实际内存和速度对比令人信服
  • 小模型胜大模型: 8B Sophia超越34B LLaVA-NeXT-Video和40B InternVL2

局限性 / 可改进方向

  • 帧剪枝的α和β是固定超参数,未做自适应(不同视频/查询应该有不同剪枝率)
  • TransNet镜头检测器是冻结的,未与VLM联合训练
  • Hierarchical Attention假设视觉token远多于文本token,短视频场景可能不适用
  • 未在实时视频理解场景验证(流式处理)

与相关工作的对比

  • vs LongVU: LongVU也做帧选择但基于DINOv2特征聚类,Sophia更直接利用查询信息做相关性剪枝
  • vs Qwen2-VL: Qwen2-VL用动态分辨率但全注意力,Sophia用层级注意力更高效
  • vs InternVL2: 性能相当但Sophia的FLOPs低一个量级

启发与关联

  • 镜头感知帧剪枝+Hierarchical Attention的组合可以迁移到视频生成任务(如长视频编辑)
  • 与KV-Latent结合:层级注意力中的摘要token可以用更低维度的KV缓存
  • 自适应剪枝率(根据视频复杂度和查询难度调整α和β)是一个自然的改进方向

评分

  • 新颖性: ⭐⭐⭐⭐ 镜头感知分割和IPD理论分析有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个benchmark、详细效率分析、消融完整
  • 写作质量: ⭐⭐⭐⭐ 理论和实践结合好,图示清晰
  • 价值: ⭐⭐⭐⭐⭐ 解决长视频理解的核心效率瓶颈,工程和学术价值兼具