Revisiting [CLS] and Patch Token Interaction in Vision Transformers¶

会议: ICLR 2026
arXiv: 2602.08626
代码: 无
领域: 图像分割 / 视觉Transformer
关键词: Vision Transformer, [CLS] token, patch token, 归一化层, 密集预测

一句话总结¶

深入分析Vision Transformer中[CLS]全局token和patch局部token之间的交互摩擦，发现归一化层隐式地区分了两类token，提出在归一化层和早期QKV投影中引入专门化处理路径，仅增加8%参数即实现分割性能提升超2 mIoU，同时保持分类精度。

研究背景与动机¶

Vision Transformer（ViT）已成为强大、可扩展且通用的视觉表征学习器。在标准ViT架构中，一个可学习的[CLS]类token被前置到patch token序列前端，用于聚合全局信息以进行分类。尽管[CLS] token和patch token承载着截然不同的语义角色——[CLS]捕获全局特征，patch负责局部特征——两者在整个模型中被完全相同地处理：经过相同的注意力层、相同的FFN、相同的归一化层。

这种"一视同仁"的处理方式存在一个根本性的摩擦：

全局与局部的竞争：[CLS] token需要从所有patch中聚合全局语义，而每个patch token需要保持自身的局部空间信息。在共享的注意力计算中，这两个目标可能相互干扰

归一化层的隐式偏好：标准的LayerNorm/RMSNorm对整个token序列进行归一化，但[CLS]和patch的统计特性（均值、方差）可能有本质不同，统一归一化可能不利于两者同时获得最优表征

密集预测性能受限：当ViT被用于分割、检测等需要高质量patch表征的密集预测任务时，上述摩擦会导致patch表征质量下降

核心观察：通过分析ViT中归一化层的行为，作者发现归一化层实际上已经在隐式地区分[CLS]和patch token——两者在归一化统计量上存在系统性差异。既然隐式区分已经存在，是否可以通过显式的专门化处理来放大这一效应，从而同时优化全局和局部表征？

方法详解¶

整体框架¶

本文的修改是对现有ViT架构的外科手术式微调——只在特定的关键模块中为[CLS]和patch token引入分离处理，而不改变整体架构： - 输入: 标准ViT架构（如ViT-B/16、ViT-L/14等） - 修改位置: 归一化层（LayerNorm）和早期的QKV投影 - 输出: [CLS] token（用于分类）+ patch tokens（用于密集预测） - 设计原则: 最小化参数增加（仅8%），零额外计算开销

关键设计¶

归一化层的隐式区分发现（Implicit Token Differentiation in Normalization）: 这是本文的核心分析贡献。作者深入研究了不同预训练策略（监督、DINO、DINOv2、MAE等）下ViT中归一化层的行为：
- 观察1：在标准LayerNorm中，[CLS] token和patch token的归一化统计量（均值和方差）存在系统性差异——[CLS]的统计量通常偏离patch的平均水平
- 观察2：这种差异在深层更加显著，说明随着网络深度增加，两类token的表征空间逐渐分化
- 观察3：归一化操作实质上在"拉平"这种已有的差异，可能抑制了各自最优的表征发展
- 结论：既然两类token本质上不同，给它们各自独立的归一化参数（甚至独立的归一化统计量）可能更有效
专门化归一化路径（Specialized Normalization Paths）: 基于上述发现，为[CLS]和patch token设计独立的归一化处理：
- 在每个Transformer块的归一化层中，将token序列分为[CLS]部分和patch部分
- [CLS] token使用自己的归一化参数（独立的scale和shift参数）
- patch tokens使用另一组归一化参数
- 这样，[CLS]可以发展优化全局聚合的归一化尺度，patch可以发展优化局部细节保留的归一化尺度
- 关键点：这一修改不引入额外的计算开销——参数分离后的归一化操作复杂度不变
早期QKV投影专门化（Early QKV Projection Specialization）: 除了归一化层，作者还发现在注意力层的QKV（Query-Key-Value）投影中引入专门化同样有益：
- 在早期几层（而非所有层）中，为[CLS]和patch token使用不同的QKV投影矩阵
- 这样，早期层中[CLS]的Query可以专门学习"如何提问以获取全局信息"，而patch的Query专门学习"如何与邻近patch交互以保持空间连贯性"
- 选择在早期层进行此修改的动机是：早期层的表征分化还不明显，专门化的QKV可以帮助尽早建立各自的表征路径；深层中token已经分化，共享QKV的影响较小
- 参数增加分析：每层为[CLS] token单独添加一组小的QKV投影矩阵（因为[CLS]只有1个token），参数增量极小

损失函数 / 训练策略¶

本文的修改可以无缝集成到任何ViT的预训练或微调流程中： - 在预训练阶段应用修改（如在DINOv2框架中训练带专门化的ViT），让模型从一开始就学习分化的表征 - 也可以在微调阶段引入修改，对已预训练的标准ViT进行适配 - 损失函数与原始训练框架保持一致（如DINO的自蒸馏损失、MAE的重建损失等） - 不引入任何额外的损失项或超参数

实验关键数据¶

主实验¶

在标准分割基准上，专门化修改带来一致且显著的提升：

任务/数据集	指标	标准ViT	专门化ViT	提升
语义分割 (ADE20K)	mIoU	baseline	+2+ mIoU	> 2 mIoU
语义分割 (其他基准)	mIoU	baseline	一致提升	> 2 mIoU
图像分类 (ImageNet)	Top-1 Acc	baseline	持平或微升	不损失分类

关键结论：分割提升超2 mIoU是一个显著的改进，同时分类精度不受影响（甚至略有提升），说明专门化没有"以分类换分割"。

消融实验¶

配置	分割性能	分类性能	参数增加	说明
仅归一化专门化	提升显著	持平	~4%	核心贡献
仅QKV专门化	中等提升	持平	~4%	互补贡献
归一化 + QKV	最优	持平或微升	~8%	两者叠加效果最佳
所有层QKV vs 仅早期层	仅早期层更优	—	—	深层共享QKV即可
不同模型规模	一致提升	一致	—	跨ViT-S/B/L有效
不同学习框架	一致提升	一致	—	跨监督/自监督有效

关键发现¶

归一化层是摩擦的主要来源：仅在归一化层引入专门化就能获得大部分性能提升，说明统一归一化确实是两类token交互摩擦的关键瓶颈
早期QKV专门化提供互补收益：在归一化专门化基础上加入早期QKV专门化可进一步提升，说明注意力计算也是摩擦点之一
仅早期层需要QKV专门化：深层中的QKV专门化收益递减，说明随着网络深度增加，两类token的表征路径已经通过归一化专门化充分分化
跨模型规模和学习框架泛化：该方法在ViT-S到ViT-L、从监督训练到DINOv2/MAE等多种设置下都有效，说明是一个通用的架构改进
参数效率极高：仅8%的参数增加换来2+ mIoU的分割提升，且不增加推理时的FLOPs

亮点与洞察¶

分析驱动的设计：不是经验性地"试各种修改看哪个好"，而是从归一化层的统计分析出发，发现隐式区分现象后才针对性地设计专门化方案
最小化干预原则：仅在归一化和早期QKV投影中引入分离——这是能产生最大影响的最小修改集。其他组件（FFN、残差连接）保持共享，避免过度设计
维持分类+提升密集预测的双赢：这说明标准ViT的分类性能并不依赖于patch token的高质量（分类只用[CLS]），但密集预测严重依赖patch质量，因此专门化对分割的提升远大于对分类的影响
归一化层作为"信息瓶颈"的新理解：本文揭示了一个不常被注意的事实——归一化层不仅仅是训练稳定器，它还隐式地影响不同token类型的表征发展路径

局限与展望¶

当前仅验证了分割和分类两类任务，其他密集预测任务（如深度估计、光流）和检测任务上的表现未知
未深入分析专门化归一化后两类token的表征几何发生了什么具体变化——如表征空间的各向同性、聚类结构等
对于没有[CLS] token的ViT变体（如只用mean pooling的架构），该方法不直接适用
未探索非ViT的Transformer架构（如Swin Transformer的窗口注意力）中是否存在类似的token类型摩擦
8%的参数增加虽小，但对于超大规模模型（如ViT-G）仍是可观的绝对数量，需要验证是否在极大规模下仍有效
缺乏理论分析说明为什么归一化层而非FFN或注意力是关键瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ （发现归一化层的隐式区分现象很有洞察力，但修改方案本身较直接）
实验充分度: ⭐⭐⭐⭐⭐ （全面的消融实验，多种规模和框架验证）
写作质量: ⭐⭐⭐⭐⭐ （分析清晰，motivation→analysis→design→验证的逻辑链完整）
价值: ⭐⭐⭐⭐⭐ （8%参数换2+ mIoU，实用价值极高，可直接被ViT社区采用）