Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective¶

会议: AAAI 2026
arXiv: 2511.16170
代码: github.com/liblacklucy/RF-CLIP
领域: 分割
关键词: 开放词汇语义分割, CLIP, 注意力重分配, 分心现象, 免训练

一句话总结¶

从可解释性角度系统研究CLIP内部机制，发现"分心"现象（distraction）——CLIP在深层将大量注意力资源分配给与目标无关的token，提出免训练的RF-CLIP方法通过注意力重分配将被分散的资源重新聚焦到目标区域，在8个基准上达到SOTA性能并保持推理高效。

研究背景与动机¶

开放词汇语义分割（OVSS）通过像素级视觉-语言对齐将类别提示与对应像素关联。现有方法分为三大范式：

联合微调：同时微调CLIP和分割组件

预微调：通过细粒度对比学习重新训练CLIP

免训练适配：仅调制CLIP最后残差注意力层或集成视觉基础模型（VFM）

然而，这些方法很少从可解释性角度研究CLIP在密集预测中的性能边界，也未探索其固有的层间空间不对齐的根源。

作者的系统分析揭示了一个关键现象——"分心"现象：

浅层（1-2层）：注意力主要集中于查询相关的token，空间一致性强

深层（7-12层）：出现大量与目标查询无关的高注意力token（分心token），逐步削弱目标区域的显著性 3. 这些分心token在不同查询点间占据相同空间位置，表明其与所有查询都有虚假的高相关性 4. 在自注意力图中表现为明显的垂直条纹

进一步分析发现，分心token源于特定维度的过度激活——CLIP在某些通道（如维度4, 162, 474等）固有地产生巨大嵌入权重，这是一种与数据无关的固有属性。filtrate这些token可显著改善OVSS性能。

方法详解¶

整体框架¶

RF-CLIP是一个免训练的注意力调制方法，模拟人类"分心→重新聚焦"行为，逐层校正CLIP的空间不对齐。每层校正包含三个步骤： 1. 分心定位（Distractor Localization）：识别消耗大量注意力的分心token 2. 失焦定位（Defocus Localization）：检测注意力不足的目标token 3. 权重重分配（Weight Redistribution）：将注意力从分心token转移到失焦目标token

关键设计¶

1. 分心维度与分心token的发现与定位¶

通过计算所有层视觉密集嵌入的平均值 \(\bar{f} = \frac{1}{L}\sum_{l=1}^{L}\frac{f^l}{\sum_{j=1}^d f^l[:,j]}\)，发现三个大规模OVSS基准数据集在相同维度上呈现一致的权重分布峰值（如ViT-B/16的维度4, 162, 474等），定义为分心维度 \(\mathcal{D}_{dis}\)。

定位分心token：对第 \(l\) 层的第 \(i\) 个token，计算其在分心维度上的最大嵌入权重：

\[\phi_i^l = \max_{j \in \mathcal{D}_{dis}} \frac{f_i^l[j]}{\sum_{k=1}^d f_i^l[k]}\]

满足 \(\phi_i^l > \tau\) 的token被识别为分心token，阈值 \(\tau = 5/d\)。

设计动机：实验证实在分心维度上嵌入权重巨大的token，在自注意力计算中不可避免地发展为分心token。分心token的注意力权重随 \(\phi_i\) 增长呈指数增长关系。

2. 失焦token定位¶

将失焦token视为前景实例，将定位问题形式化为二分图割问题。使用key-key注意力 \(\text{Attn}_{kk}^l\) 作为相似度矩阵进行谱聚类，最小化归一化割能量：

\[\bm{y}_1^l = \arg\min_{\bm{y}^{l\top}\bm{D1}=0} \frac{\bm{y}^{l\top}(\bm{D}^l - \text{Attn}_{kk}^l)\bm{y}^l}{\bm{y}^{l\top}\bm{D}^l\bm{y}^l}\]

其中 \(\bm{y}_1^l\) 为Fiedler向量（广义特征系统的第二小特征值对应的特征向量），满足 \(\bm{y}_1^l[i] > \frac{1}{N}\sum_{j=1}^N \bm{y}_1^l[j]\) 的token为失焦token。

设计动机：图割能自然地将图像分为前景和背景两组，对各种场景都具有鲁棒性，无需额外标注或训练。

3. 权重重分配¶

分为两个互补机制：

注意力权重重分配：先缩减分心token的注意力权重，将减量保留为重分配预算 \(\Omega\)：

\[\text{Attn}_{qk}^{l,h}[i,j] \leftarrow (1-\beta) \cdot \text{Attn}_{qk}^{l,h}[i,j], \quad \forall j \in \mathcal{T}_{dis}\]

\[\Omega[i] = \beta \cdot \sum_{j \in \mathcal{T}_{dis}} \text{Attn}_{qk}^{l,h}[i,j]\]

然后按原始注意力权重的比例分配给失焦token：

\[\text{Attn}_{qk}^{l,h}[i,j] \leftarrow \text{Attn}_{qk}^{l,h}[i,j] + \Omega[i] \cdot \rho[i,j], \quad \forall j \in \mathcal{T}_{def}\]

其中 \(\beta = 0.7\) 为衰减因子。此过程保持列归一化，保留原始注意力分布，有效防止模型崩溃。

嵌入权重重分配：对分心token在分心维度上使用3×3邻域平均替换：

\[f_i^l[j] = \frac{1}{8} \cdot \sum_{\hat{i} \in \mathcal{O}_i} f_{\hat{i}}^l[j], \quad \forall j \in \mathcal{D}_{dis}, i \in \mathcal{T}_{dis}\]

仅调整分心维度的嵌入，不破坏正常维度的分布。

密集预测：校正后用层平均注意力 \(\overline{\text{Attn}}_{kk} = \frac{1}{L}\sum_{l=1}^L \text{Attn}_{kk}^l\) 替换最后一层的 \(\text{Attn}_{qk}^L\)。

损失函数 / 训练策略¶

RF-CLIP是完全免训练的方法，无需任何训练或微调。所有操作直接在CLIP的推理过程中执行，对注意力机制进行逐层调制。

实验关键数据¶

主实验¶

基于 CLIP ViT-B/16，在8个标准基准上的mIoU (%)：

方法	额外VFM	VOC21	Context60	COCO-Obj	VOC20	Context59	COCO-Stuff	Cityscapes	ADE20K	平均
ProxyCLIP	DINO	59.1	35.2	36.2	78.2	38.8	26.2	38.1	19.6	41.4
CASS	DINO	65.8	36.7	37.8	87.8	40.2	26.7	39.4	20.4	44.4
SC-CLIP	✗	64.6	36.8	37.7	84.3	40.1	26.6	41.0	20.1	43.9
RF-CLIP	✗	64.8	36.4	37.9	87.0	39.8	26.3	41.3	20.4	44.2
RF-CLIP+PAMR	✗	67.2	37.9	39.1	87.0	41.4	27.5	43.0	21.0	45.5

RF-CLIP不使用任何额外VFM即超越使用DINO的ProxyCLIP (+2.8mIoU) 和CASS，平均mIoU与同基线方法相比提升1.6%。

消融实验¶

配置	VOC21	COCO-Stuff	Cityscapes	ADE20K	平均	说明
基线	59.1	23.6	32.1	16.9	32.9	层平均kk注意力
+随机均值滤波	58.8	21.4	31.6	14.7	31.6	随机token滤波，性能下降
+分心定位+均值滤波	60.3	24.4	33.6	17.5	34.0	分心感知滤波，+1.1%
+注意力重分配	61.5	24.8	35.3	18.3	35.0	+2.1%
+嵌入重分配	62.1	25.2	36.7	18.9	35.7	+2.8%
+两种重分配	63.2	25.4	38.5	19.3	36.6	+3.7%
+失焦定位	64.8	26.3	41.3	20.4	38.2	+5.3%

效率分析（VOC21基准）：

模型	FLOPs(G)	Params(M)	Speed(FPS)	mIoU(%)
基线	16.7	149.6	12.7	58.1
ProxyCLIP	34.1	235.4	6.1	59.1
RF-CLIP	17.1	149.6	12.0	64.8

RF-CLIP推理速度是ProxyCLIP的2倍，mIoU高出5.7%。

抑制策略比较：

策略	VOC21	COCO-Stuff	Cityscapes	ADE20K
基线	58.1	23.0	31.1	16.3
-∞掩码	3.5	0.1	2.0	0.1
低通滤波	7.9	1.1	6.2	1.4
均值滤波	59.3	24.0	35.4	18.2
中值滤波	58.6	23.7	34.5	17.6

关键发现¶

直接消除分心token（-∞掩码、低通滤波）导致性能崩溃，因为破坏了CLIP高维空间的拓扑结构
分心token应保持与相邻区域的空间一致性，因此均值/中值滤波有效
将注意力资源分配给失焦token比分配给所有非分心token或[CLS] token都更有效
3×3邻域在嵌入重分配中最优，更大邻域反而降低性能，说明分心token集中在高频区域
阈值 \(\tau = 5/d\) 在所有基准上取得最优，低阈值（高误报率）的性能下降远大于高阈值

亮点与洞察¶

可解释性驱动的方法设计：从CLIP内部机制的系统分析出发，发现"分心"现象，再设计针对性解决方案。这种"先理解后设计"的范式极具启发性
免训练即达SOTA：不引入任何额外模型或训练，仅通过调制CLIP自身注意力机制就超越使用DINO等额外VFM的方法
分心维度的数据无关性：相同的分心维度在不同数据集上一致出现，说明这是CLIP预训练过程的固有特性
精细的实验控制：随机token滤波 vs 分心token滤波的对照实验设计精巧，令人信服地证明了分心感知处理的重要性
注意力资源的"守恒"设计：重分配保持列归一化，按原始比例分配，兼顾性能提升和防止崩溃

局限与展望¶

阈值和分心维度需按CLIP架构（ViT-B/16 vs ViT-L/14）分别设定，泛化性有限
谱聚类的特征值分解增加额外计算，虽然整体仍比引入VFM高效
ViT-L/14中分心token的识别需额外引入注意力权重条件，比ViT-B/16复杂
对极度复杂场景（多目标重叠）的二分图割可能过于简化

评分¶

新颖性: ⭐⭐⭐⭐⭐ （从可解释性角度发现分心现象并提出注意力重分配，非常original）
实验充分度: ⭐⭐⭐⭐⭐ （8个基准，详尽消融，效率分析，多种对照实验）
写作质量: ⭐⭐⭐⭐⭐ （逻辑清晰，从现象发现到方法设计层层递进，图表丰富）
价值: ⭐⭐⭐⭐⭐ （免训练达SOTA，揭示CLIP内部机制的新洞察）