Vision Transformers Need More Than Registers¶
会议: CVPR 2026
arXiv: 2602.22394
代码: 待确认
领域: 视觉Transformer / 表示学习
关键词: ViT, register token, 伪影, 注意力图, 预训练
一句话总结¶
系统揭示ViT注意力伪影的根因是"惰性聚合"——全局注意力+粗粒度语义监督驱动模型用语义无关的背景patch作为全局语义的捷径表示,提出选择性patch特征集成方案在12个基准上跨三种监督范式一致提升性能。
背景与动机¶
ViT在大规模预训练后广泛出现注意力伪影(artifact):某些patch位置的注意力权重异常集中,且这些位置往往与图像语义无关。DINOv2提出添加register token来缓解,但这更像是一个"补丁"而非根治——register token的作用机制以及伪影的根本成因仍未被充分解释。
核心问题¶
ViT伪影到底从何而来?它是所有ViT的通病还是特定训练范式的产物?为什么仅靠加register token不够?
本文通过系统分析发现:伪影源自一种"惰性聚合(lazy aggregation)"行为。在全局自注意力机制下,ViT需要将空间信息聚合到CLS token中形成全局表示。当监督信号是粗粒度的(如图像级标签/全局对比损失),模型发现直接利用那些语义不显著的背景patch作为"中转站"来存储全局信息是最懒省力的做法——这就形成了伪影。Register token只是提供了另一种中转站,并没有解决模型"懒"的根本问题。
方法详解¶
整体框架¶
提出选择性CLS集成方案:在ViT特征聚合到CLS token时,根据patch的语义相关性进行选择性集成,减少对背景主导捷径的依赖。
关键设计¶
1. 伪影成因分析:惰性聚合 - 通过可视化和统计分析,证明伪影patch具有以下特征:(a)空间位置固定(b)语义上与前景无关(c)在深层承载了不成比例的全局信息 - 对比标签监督(ImageNet)、文本监督(CLIP)、自监督(DINO/MAE)三种范式,发现伪影是共性现象,只要有全局聚合需求就会出现 - Register token减轻了伪影但没消除,因为模型仍然在用背景patch做捷径
2. 选择性Patch特征集成 - 在CLS token聚合patch信息时,引入语义相关性评估机制 - 降低背景patch对CLS的贡献权重,让CLS更多地从前景语义相关的patch中获取信息 - 设计轻量,不改变ViT主体架构,可应用于已有预训练模型
损失函数/训练策略¶
兼容原有训练流程(标签监督/对比损失/自蒸馏),仅在特征聚合层面做改动,无需重新预训练。
实验关键数据¶
| 评估范围 | 基准数量 | 监督范式 | 一致提升 |
|---|---|---|---|
| 检测/分割/分类等 | 12个 | 标签/文本/自监督 | ✅ 全部提升 |
消融实验要点¶
- 对比register token方案:本文方法在性能上优于仅加register,说明"治本"优于"治标"
- 在DINOv2、CLIP、监督ViT上均验证有效,不依赖特定训练范式
- 伪影程度与模型规模正相关:越大的ViT伪影越严重
亮点 / 我学到了什么¶
- "惰性聚合"这个分析框架很有说服力——全局注意力+粗粒度监督 → 背景patch成捷径,逻辑链完整
- 对DINOv2 register论文是一个重要的深化和修正:register不是解,只是另一种形式的中转站
- 跨三种监督范式的统一分析提升了结论的可信度
- 启示:任何依赖全局pooling/aggregation的架构都可能存在类似的"惰性"问题
局限性 / 可改进方向¶
- 选择性集成的计算开销如何?对实时推理有无影响?
- 在密集预测任务(如语义分割)中,背景patch本身也携带有用信息,如何平衡?
- 论文聚焦于分析和诊断,具体的工程化集成方案描述可能不够详细
与相关工作的对比¶
- vs DINOv2 Register论文:提供了更深入的机理解释和更有效的解决方案
- vs ViT中的token pruning工作:切入点不同——pruning关注效率,本文关注表示质量
- vs CLS token设计改进(如BERT CLS讨论):首次从伪影视角系统分析ViT的全局聚合
与我的研究方向的关联¶
- ViT伪影理解对token压缩策略设计有直接影响:哪些token该保留、哪些该丢弃?
- 如果背景patch承载的是全局信息,简单丢弃它们可能反而损害性能
- 对基于ViT特征的下游任务(检测/分割)需要意识到特征图中可能存在伪影干扰
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 对ViT核心行为的深刻洞察,改变了对register的认知
- 实验充分度: ⭐⭐⭐⭐⭐ — 12个基准×3种范式的系统验证
- 写作质量: ⭐⭐⭐⭐ — 分析部分优秀,方法描述可再详细
- 对我的价值: ⭐⭐⭐⭐ — 对ViT token处理策略的设计有指导意义