Revisiting [CLS] and Patch Token Interaction in Vision Transformers¶
会议: ICLR 2026
arXiv: 2602.08626
代码: 无
领域: 图像分割 / 视觉Transformer
关键词: Vision Transformer, [CLS] token, patch token, 归一化层, 密集预测
一句话总结¶
深入分析Vision Transformer中[CLS]全局token和patch局部token之间的交互摩擦,发现归一化层隐式地区分了两类token,提出在归一化层和早期QKV投影中引入专门化处理路径,仅增加8%参数即实现分割性能提升超2 mIoU,同时保持分类精度。
研究背景与动机¶
Vision Transformer(ViT)已成为强大、可扩展且通用的视觉表征学习器。在标准ViT架构中,一个可学习的[CLS]类token被前置到patch token序列前端,用于聚合全局信息以进行分类。尽管[CLS] token和patch token承载着截然不同的语义角色——[CLS]捕获全局特征,patch负责局部特征——两者在整个模型中被完全相同地处理:经过相同的注意力层、相同的FFN、相同的归一化层。
这种"一视同仁"的处理方式存在一个根本性的摩擦:
全局与局部的竞争:[CLS] token需要从所有patch中聚合全局语义,而每个patch token需要保持自身的局部空间信息。在共享的注意力计算中,这两个目标可能相互干扰
归一化层的隐式偏好:标准的LayerNorm/RMSNorm对整个token序列进行归一化,但[CLS]和patch的统计特性(均值、方差)可能有本质不同,统一归一化可能不利于两者同时获得最优表征
密集预测性能受限:当ViT被用于分割、检测等需要高质量patch表征的密集预测任务时,上述摩擦会导致patch表征质量下降
核心观察:通过分析ViT中归一化层的行为,作者发现归一化层实际上已经在隐式地区分[CLS]和patch token——两者在归一化统计量上存在系统性差异。既然隐式区分已经存在,是否可以通过显式的专门化处理来放大这一效应,从而同时优化全局和局部表征?
方法详解¶
整体框架¶
本文的修改是对现有ViT架构的外科手术式微调——只在特定的关键模块中为[CLS]和patch token引入分离处理,而不改变整体架构: - 输入: 标准ViT架构(如ViT-B/16、ViT-L/14等) - 修改位置: 归一化层(LayerNorm)和早期的QKV投影 - 输出: [CLS] token(用于分类)+ patch tokens(用于密集预测) - 设计原则: 最小化参数增加(仅8%),零额外计算开销
关键设计¶
-
归一化层的隐式区分发现(Implicit Token Differentiation in Normalization): 这是本文的核心分析贡献。作者深入研究了不同预训练策略(监督、DINO、DINOv2、MAE等)下ViT中归一化层的行为:
- 观察1:在标准LayerNorm中,[CLS] token和patch token的归一化统计量(均值和方差)存在系统性差异——[CLS]的统计量通常偏离patch的平均水平
- 观察2:这种差异在深层更加显著,说明随着网络深度增加,两类token的表征空间逐渐分化
- 观察3:归一化操作实质上在"拉平"这种已有的差异,可能抑制了各自最优的表征发展
- 结论:既然两类token本质上不同,给它们各自独立的归一化参数(甚至独立的归一化统计量)可能更有效
-
专门化归一化路径(Specialized Normalization Paths): 基于上述发现,为[CLS]和patch token设计独立的归一化处理:
- 在每个Transformer块的归一化层中,将token序列分为[CLS]部分和patch部分
- [CLS] token使用自己的归一化参数(独立的scale和shift参数)
- patch tokens使用另一组归一化参数
- 这样,[CLS]可以发展优化全局聚合的归一化尺度,patch可以发展优化局部细节保留的归一化尺度
- 关键点:这一修改不引入额外的计算开销——参数分离后的归一化操作复杂度不变
-
早期QKV投影专门化(Early QKV Projection Specialization): 除了归一化层,作者还发现在注意力层的QKV(Query-Key-Value)投影中引入专门化同样有益:
- 在早期几层(而非所有层)中,为[CLS]和patch token使用不同的QKV投影矩阵
- 这样,早期层中[CLS]的Query可以专门学习"如何提问以获取全局信息",而patch的Query专门学习"如何与邻近patch交互以保持空间连贯性"
- 选择在早期层进行此修改的动机是:早期层的表征分化还不明显,专门化的QKV可以帮助尽早建立各自的表征路径;深层中token已经分化,共享QKV的影响较小
- 参数增加分析:每层为[CLS] token单独添加一组小的QKV投影矩阵(因为[CLS]只有1个token),参数增量极小
损失函数 / 训练策略¶
本文的修改可以无缝集成到任何ViT的预训练或微调流程中: - 在预训练阶段应用修改(如在DINOv2框架中训练带专门化的ViT),让模型从一开始就学习分化的表征 - 也可以在微调阶段引入修改,对已预训练的标准ViT进行适配 - 损失函数与原始训练框架保持一致(如DINO的自蒸馏损失、MAE的重建损失等) - 不引入任何额外的损失项或超参数
实验关键数据¶
主实验¶
在标准分割基准上,专门化修改带来一致且显著的提升:
| 任务/数据集 | 指标 | 标准ViT | 专门化ViT | 提升 |
|---|---|---|---|---|
| 语义分割 (ADE20K) | mIoU | baseline | +2+ mIoU | > 2 mIoU |
| 语义分割 (其他基准) | mIoU | baseline | 一致提升 | > 2 mIoU |
| 图像分类 (ImageNet) | Top-1 Acc | baseline | 持平或微升 | 不损失分类 |
关键结论:分割提升超2 mIoU是一个显著的改进,同时分类精度不受影响(甚至略有提升),说明专门化没有"以分类换分割"。
消融实验¶
| 配置 | 分割性能 | 分类性能 | 参数增加 | 说明 |
|---|---|---|---|---|
| 仅归一化专门化 | 提升显著 | 持平 | ~4% | 核心贡献 |
| 仅QKV专门化 | 中等提升 | 持平 | ~4% | 互补贡献 |
| 归一化 + QKV | 最优 | 持平或微升 | ~8% | 两者叠加效果最佳 |
| 所有层QKV vs 仅早期层 | 仅早期层更优 | — | — | 深层共享QKV即可 |
| 不同模型规模 | 一致提升 | 一致 | — | 跨ViT-S/B/L有效 |
| 不同学习框架 | 一致提升 | 一致 | — | 跨监督/自监督有效 |
关键发现¶
- 归一化层是摩擦的主要来源:仅在归一化层引入专门化就能获得大部分性能提升,说明统一归一化确实是两类token交互摩擦的关键瓶颈
- 早期QKV专门化提供互补收益:在归一化专门化基础上加入早期QKV专门化可进一步提升,说明注意力计算也是摩擦点之一
- 仅早期层需要QKV专门化:深层中的QKV专门化收益递减,说明随着网络深度增加,两类token的表征路径已经通过归一化专门化充分分化
- 跨模型规模和学习框架泛化:该方法在ViT-S到ViT-L、从监督训练到DINOv2/MAE等多种设置下都有效,说明是一个通用的架构改进
- 参数效率极高:仅8%的参数增加换来2+ mIoU的分割提升,且不增加推理时的FLOPs
亮点与洞察¶
- 分析驱动的设计:不是经验性地"试各种修改看哪个好",而是从归一化层的统计分析出发,发现隐式区分现象后才针对性地设计专门化方案
- 最小化干预原则:仅在归一化和早期QKV投影中引入分离——这是能产生最大影响的最小修改集。其他组件(FFN、残差连接)保持共享,避免过度设计
- 维持分类+提升密集预测的双赢:这说明标准ViT的分类性能并不依赖于patch token的高质量(分类只用[CLS]),但密集预测严重依赖patch质量,因此专门化对分割的提升远大于对分类的影响
- 归一化层作为"信息瓶颈"的新理解:本文揭示了一个不常被注意的事实——归一化层不仅仅是训练稳定器,它还隐式地影响不同token类型的表征发展路径
局限与展望¶
- 当前仅验证了分割和分类两类任务,其他密集预测任务(如深度估计、光流)和检测任务上的表现未知
- 未深入分析专门化归一化后两类token的表征几何发生了什么具体变化——如表征空间的各向同性、聚类结构等
- 对于没有[CLS] token的ViT变体(如只用mean pooling的架构),该方法不直接适用
- 未探索非ViT的Transformer架构(如Swin Transformer的窗口注意力)中是否存在类似的token类型摩擦
- 8%的参数增加虽小,但对于超大规模模型(如ViT-G)仍是可观的绝对数量,需要验证是否在极大规模下仍有效
- 缺乏理论分析说明为什么归一化层而非FFN或注意力是关键瓶颈
相关工作与启发¶
- DINOv2: 本文的专门化方案可直接集成到DINOv2的预训练流程中,提升预训练模型的密集预测能力
- ViT-Adapter: 采用适配器方式提升密集预测,与本文的"内部专门化"路线形成对比——一个在外部加模块,一个在内部做区分
- Register Tokens: 最近的工作在ViT中添加额外的无语义token来吸收注意力中的噪声信息,与[CLS]的角色互补,可能与本文发现的摩擦问题相关
- Layer by layer, module by module (同会议论文): 该论文从OOD线性探测角度分析ViT内部模块,与本文的模块级分析视角互补
- 本文启发的方向:是否可以进一步对patch token内部进行分组专门化——如前景和背景的patch?
评分¶
- 新颖性: ⭐⭐⭐⭐ (发现归一化层的隐式区分现象很有洞察力,但修改方案本身较直接)
- 实验充分度: ⭐⭐⭐⭐⭐ (全面的消融实验,多种规模和框架验证)
- 写作质量: ⭐⭐⭐⭐⭐ (分析清晰,motivation→analysis→design→验证的逻辑链完整)
- 价值: ⭐⭐⭐⭐⭐ (8%参数换2+ mIoU,实用价值极高,可直接被ViT社区采用)
相关论文¶
- [ICLR 2026] Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers
- [ICLR 2026] Locality-Attending Vision Transformer
- [CVPR 2026] MPM: Mutual Pair Merging for Efficient Vision Transformers
- [NeurIPS 2025] Vision Transformers with Self-Distilled Registers
- [CVPR 2025] Revisiting Audio-Visual Segmentation with Vision-Centric Transformer