AutoGaze: Attend Before Attention — Efficient and Scalable Video Understanding via Autoregressive Gazing¶

会议: CVPR 2026
arXiv: 2603.12254
代码: 有 (项目页: https://autogaze.github.io/)
领域: 视频理解 / 多模态VLM / 模型压缩
关键词: 视频token压缩, 自回归选择, MLLM加速, 长视频, 高分辨率

一句话总结¶

提出AutoGaze——在ViT/MLLM处理视频之前，用一个轻量模块自回归地选择最少的多尺度patch，减少4x-100x视觉token，加速最高19x，支持1K帧4K视频并在VideoMME达67.0%。

背景与动机¶

多模态大语言模型（MLLM）在通用视频理解上取得了显著进展，但面对长时、高分辨率视频时遇到严重瓶颈：ViT和LLM都平等地处理每一个像素，而视频中存在大量时空冗余（如静态背景、重复帧）。这导致计算量随帧数和分辨率急剧增长，4K长视频基本无法处理。现有的token减少方法要么依赖固定规则（均匀采样），要么需要重新训练整个模型，都不够灵活。

核心问题¶

如何在不损失关键信息的前提下，大幅减少送入ViT/MLLM的视觉token数量？核心挑战在于：不同视频片段的信息密度差异巨大——静态画面只需极少token，但快速运动或复杂场景需要密集采样。需要一种内容自适应的方法来决定"看哪里、看多细"。

方法详解¶

整体框架¶

AutoGaze是一个即插即用的前置模块，放在ViT或MLLM之前。输入一段视频，AutoGaze自回归地逐步选择一组多尺度patch，使得这组patch足以在用户指定的误差阈值内重建原始视频。选出的稀疏patch集再送入下游ViT/MLLM处理。

关键设计¶

自回归patch选择: AutoGaze像语言模型生成token一样地"生成"patch选择决策。每一步基于已选patch的信息，决定下一个最有价值的patch位置和尺度。这种自回归策略比一次性选择更精确——后续选择能利用前面的上下文。
多尺度patch: 不是固定分辨率选择，而是支持多个尺度——对整体结构用粗粒度patch，对细节区域用细粒度patch。这模仿人眼"先整体后局部"的注视策略。
误差阈值控制: 用户可指定视频重建误差的容忍度——容忍度高则少选patch（更快），容忍度低则多选（更精确）。这提供了一个编程接口来控制效率-精度trade-off。

损失函数 / 训练策略¶

用next-token prediction + 强化学习联合训练。Next-token prediction让模型学习patch间的依赖结构；RL让模型学会在最少patch数下达到目标重建质量——奖励信号来自"用多少patch达到给定精度"。

实验关键数据¶

数据集	指标	AutoGaze	基线MLLM	提升
VideoMME	Acc	67.0%	~60%	+7%
HLVid (新)	Acc	+10.1% vs baseline	-	+4.5% vs prev best
通用	Token减少	4x-100x	1x	显著
通用	速度提升	最高19x	1x	显著

消融实验要点¶

多尺度选择比单尺度选择提升显著——粗细结合效果远好于纯细粒度
RL训练比纯监督学习更能找到最优的Token-精度平衡点
误差阈值提供了平滑的效率-精度曲线，适配不同部署场景

亮点 / 我学到了什么¶

🔥 "先看再算"的范式 — 不是先提取所有特征再筛选，而是先决定看哪里再提取。这颠覆了传统ViT"均匀计算"的范式
自回归选择 = 内容感知的自适应计算分配，比ToMe/EViT等固定规则方法更智能
HLVid benchmark填补了高分辨率长视频QA评估的空白
RL训练patch选择策略是巧妙的——把离散选择问题转化为序列决策

局限性 / 可改进方向¶

AutoGaze模块本身的推理开销——对超短视频(几帧)可能得不偿失
误差阈值需要手动指定，能否自动根据任务难度调整？
能否把这个思路推广到图像MLLM上？（单图内不同区域的token分配）
→ 直接关联idea: task_aware_token_compression.md

与相关工作的对比¶

vs ToMe: ToMe是静态的基于相似度的token合并，AutoGaze是动态的自回归选择——后者能利用上下文做更精准的决策
vs FastV/LLaVA-PruMerge: 这些方法在LLM内部做token减少，AutoGaze在ViT之前就减少了——更早减少=更大加速
vs EVATok: EVATok针对视频生成的tokenizer优化，AutoGaze针对视频理解的token选择——互补而非竞争

与我的研究方向的关联¶

🔥🔥 直接启发 task_aware_token_compression.md — 自回归patch选择可以扩展为任务感知的
与BiGain（频域token压缩）、TrajTok（轨迹token）共同构成视频效率方法族
19x加速意味着5080也能跑长视频理解 → 对我的"无需大规模计算"需求非常有价值

评分¶

新颖性: ⭐⭐⭐⭐⭐ 自回归patch选择+RL训练是全新的范式
实验充分度: ⭐⭐⭐⭐⭐ 多个benchmark+消融+新benchmark HLVid
写作质量: ⭐⭐⭐⭐⭐ 故事讲得清楚，"Attend Before Attention"标题极好
对我的价值: ⭐⭐⭐⭐⭐ 直接相关+实际可用+启发idea