Vision Transformers Need More Than Registers¶

会议: CVPR 2026
arXiv: 2602.22394
代码: 待确认
领域: 视觉Transformer / 表示学习
关键词: ViT, register token, 伪影, 注意力图, 预训练

一句话总结¶

系统揭示ViT注意力伪影的根因是"惰性聚合"——全局注意力+粗粒度语义监督驱动模型用语义无关的背景patch作为全局语义的捷径表示，提出选择性patch特征集成方案在12个基准上跨三种监督范式一致提升性能。

背景与动机¶

ViT在大规模预训练后广泛出现注意力伪影（artifact）：某些patch位置的注意力权重异常集中，且这些位置往往与图像语义无关。DINOv2提出添加register token来缓解，但这更像是一个"补丁"而非根治——register token的作用机制以及伪影的根本成因仍未被充分解释。

核心问题¶

ViT伪影到底从何而来？它是所有ViT的通病还是特定训练范式的产物？为什么仅靠加register token不够？

本文通过系统分析发现：伪影源自一种"惰性聚合（lazy aggregation）"行为。在全局自注意力机制下，ViT需要将空间信息聚合到CLS token中形成全局表示。当监督信号是粗粒度的（如图像级标签/全局对比损失），模型发现直接利用那些语义不显著的背景patch作为"中转站"来存储全局信息是最懒省力的做法——这就形成了伪影。Register token只是提供了另一种中转站，并没有解决模型"懒"的根本问题。

方法详解¶

整体框架¶

提出选择性CLS集成方案：在ViT特征聚合到CLS token时，根据patch的语义相关性进行选择性集成，减少对背景主导捷径的依赖。

关键设计¶

1. 伪影成因分析：惰性聚合 - 通过可视化和统计分析，证明伪影patch具有以下特征：（a）空间位置固定（b）语义上与前景无关（c）在深层承载了不成比例的全局信息 - 对比标签监督(ImageNet)、文本监督(CLIP)、自监督(DINO/MAE)三种范式，发现伪影是共性现象，只要有全局聚合需求就会出现 - Register token减轻了伪影但没消除，因为模型仍然在用背景patch做捷径

2. 选择性Patch特征集成 - 在CLS token聚合patch信息时，引入语义相关性评估机制 - 降低背景patch对CLS的贡献权重，让CLS更多地从前景语义相关的patch中获取信息 - 设计轻量，不改变ViT主体架构，可应用于已有预训练模型

损失函数/训练策略¶

兼容原有训练流程（标签监督/对比损失/自蒸馏），仅在特征聚合层面做改动，无需重新预训练。

实验关键数据¶

评估范围	基准数量	监督范式	一致提升
检测/分割/分类等	12个	标签/文本/自监督	✅ 全部提升

消融实验要点¶

对比register token方案：本文方法在性能上优于仅加register，说明"治本"优于"治标"
在DINOv2、CLIP、监督ViT上均验证有效，不依赖特定训练范式
伪影程度与模型规模正相关：越大的ViT伪影越严重

亮点 / 我学到了什么¶

"惰性聚合"这个分析框架很有说服力——全局注意力+粗粒度监督 → 背景patch成捷径，逻辑链完整
对DINOv2 register论文是一个重要的深化和修正：register不是解，只是另一种形式的中转站
跨三种监督范式的统一分析提升了结论的可信度
启示：任何依赖全局pooling/aggregation的架构都可能存在类似的"惰性"问题

局限性 / 可改进方向¶

选择性集成的计算开销如何？对实时推理有无影响？
在密集预测任务（如语义分割）中，背景patch本身也携带有用信息，如何平衡？
论文聚焦于分析和诊断，具体的工程化集成方案描述可能不够详细

与相关工作的对比¶

vs DINOv2 Register论文：提供了更深入的机理解释和更有效的解决方案
vs ViT中的token pruning工作：切入点不同——pruning关注效率，本文关注表示质量
vs CLS token设计改进（如BERT CLS讨论）：首次从伪影视角系统分析ViT的全局聚合

与我的研究方向的关联¶

ViT伪影理解对token压缩策略设计有直接影响：哪些token该保留、哪些该丢弃？
如果背景patch承载的是全局信息，简单丢弃它们可能反而损害性能
对基于ViT特征的下游任务（检测/分割）需要意识到特征图中可能存在伪影干扰

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 对ViT核心行为的深刻洞察，改变了对register的认知
实验充分度: ⭐⭐⭐⭐⭐ — 12个基准×3种范式的系统验证
写作质量: ⭐⭐⭐⭐ — 分析部分优秀，方法描述可再详细
对我的价值: ⭐⭐⭐⭐ — 对ViT token处理策略的设计有指导意义