InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer¶

会议: AAAI 2026
arXiv: 2511.15967
代码: https://muyaoyuan.github.io/InfoCLIP-Page
领域: 语义分割 / 多模态VLM
关键词: 开放词汇语义分割, CLIP微调, 信息瓶颈, 互信息蒸馏, 模态对齐

一句话总结¶

提出InfoCLIP，基于信息论视角设计信息瓶颈压缩和互信息蒸馏两个目标，在CLIP微调过程中去除预训练pixel-text对齐中的噪声并保留语义对齐知识，在6个开放词汇语义分割测试集上全面超越SOTA（A-847: 16.6, A-150: 38.5, PC-59: 63.5 mIoU），且仅增加0.53M参数和极少计算开销。

背景与动机¶

CLIP在open-vocabulary语义分割中被广泛使用，但微调CLIP时存在根本性矛盾：CLIP预训练学的是image-text全局对齐，而分割需要pixel-text局部对齐。在有限类别数据上微调会导致模态对齐空间收窄（overfitting to seen classes），即使冻结大部分参数也很脆弱——修改少量参数就能破坏特征分布。现有蒸馏方法（MAFT系列）只在图像层面蒸馏视觉特征，未解决pixel-text对齐问题，甚至会降低性能。

核心问题¶

如何从预训练CLIP中提取精细的pixel-text对齐知识，去除粗粒度表示中的噪声，并有效迁移到微调模型中，避免在seen categories上过拟合？这是一个两阶段挑战：(1) 从噪声中提取有用的像素级对齐关系；(2) 在保持模态对齐的前提下迁移给下游模型。

方法详解¶

整体框架¶

InfoCLIP基于CAT-Seg架构，使用frozen pretrained CLIP作为teacher，fine-tuned CLIP作为student。核心包含三个组件：LPAM模块提取pixel-text对齐关系 → 信息瓶颈压缩去噪 → 互信息最大化蒸馏迁移。总损失 = 任务交叉熵损失 + \(\lambda_1\)压缩损失 + \(\lambda_2\)蒸馏损失。

关键设计¶

Learnable Pixel-Text Alignment Module (LPAM): 接收CLIP图像编码器的dense embeddings (\(D_V\)) 和文本编码器的embeddings (\(D_L\))，通过learned attention产生语义对齐图 \(R \in \mathbb{R}^{(H \times W) \times N_C}\)。使用缩放点积注意力+残差余弦相似度混合计算。Teacher和student共享LPAM参数，分别产出\(R^T\)和\(R^S\)。仅0.53M参数，极其轻量。
Semantic Compression via Information Bottleneck（压缩损失\(\mathcal{L}_c\)）: 最小化预训练CLIP输入embedding \((D_V^T, D_L^T)\)与对齐图\(R^T\)之间的互信息。使用matrix-based Rényi α-entropy（α=2时可用Frobenius范数近似，避免特征值分解，计算复杂度从\(O(n^3)\)降至\(O(n^2)\)）。直觉上，第一项压缩对齐特征的冗余信号，第二项保留图像-文本-对齐的联合语义信息，形成信息瓶颈滤除噪声。
Alignment Transfer via Mutual Information（蒸馏损失\(\mathcal{L}_d\)）: 最大化teacher对齐图\(R^T\)和student对齐图\(R^S\)之间的Rényi互信息。相比KL散度蒸馏，互信息能保留结构信息且不需要密度估计，提供稳定可微的优化目标。前两项起正则化作用，第三项强制teacher-student关系级对齐一致性。

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{task} + \lambda_1 \mathcal{L}_c + \lambda_2 \mathcal{L}_d\)，\(\lambda_1 = \lambda_2 = 1\)（通过超参数敏感性分析确定）。AdamW优化器，decoder和蒸馏模块lr=\(2 \times 10^{-4}\)，CLIP骨干lr=\(2 \times 10^{-6}\)，batch size=4，80k iterations，单卡A800训练。

实验关键数据¶

数据集	指标(mIoU)	InfoCLIP(ViT-B)	CAT-Seg(ViT-B)	InfoCLIP(ViT-L)	CAT-Seg(ViT-L)
A-847	mIoU	12.6	12.0	16.6	16.0
PC-459	mIoU	19.5	19.0	24.6	23.8
A-150	mIoU	32.1	31.8	38.5	37.9
PC-59	mIoU	58.1	57.5	63.5	63.3
PAS-20	mIoU	95.5	94.6	97.5	97.0
PAS-20b	mIoU	78.1	77.3	83.1	82.5

比MAFT+(ViT-L)在PC-459上提升8.4%，PC-59上提升4.5%。训练开销极小：仅多0.53M参数，forward +0.08s, backward +0.03s。

消融实验要点¶

单独\(\mathcal{L}_d\): A-847 11.3→表现一般；单独\(\mathcal{L}_c\): A-847 11.8→略好；两者结合12.6(+0.6)，互补效果明显
传统蒸馏方法（KL散度、MAFT、MAFT+）甚至降低了CAT-Seg性能，说明直接蒸馏在OVSS中不奏效
α=2在所有benchmark上最优且计算速度提升56倍（0.5ms vs 28.2ms per iteration）

亮点¶

信息论视角非常优雅——用information bottleneck去噪+MI最大化蒸馏，理论上有保证，实践中有效
"压缩+蒸馏"的两步设计直觉很好：先去除预训练CLIP局部表示的噪声，再把干净的对齐知识迁移给微调模型
α=2的Frobenius范数近似是一个很实用的trick——把\(O(n^3)\)降到\(O(n^2)\)且性能更好
方法与模型架构正交（只需要一个lightweight LPAM），可以嫁接到其他OVSS方法上
t-SNE可视化清晰展示了seen/unseen class的特征解纠缠效果

局限性 / 可改进方向¶

只基于CAT-Seg架构验证，未扩展到其他框架（如SAN、FC-CLIP）
LPAM使用固定的shared parameters，没有探索teacher/student使用不同LPAM的可能
信息瓶颈的压缩程度由\(\lambda_1\)控制，但对不同场景的最优压缩程度可能不同
未探索与更大VLM（如InternVL、LLaVA）的结合

与相关工作的对比¶

vs CAT-Seg: InfoCLIP在CAT-Seg基础上增加信息论蒸馏，全面超越，且开销极小（+0.53M参数）
vs MAFT/MAFT+: MAFT系列在图像级别蒸馏视觉特征，不适用于pixel-based方法，且甚至降低性能。InfoCLIP在pixel-text alignment层面进行蒸馏，效果显著优于它们
vs KL蒸馏: 传统KL蒸馏在OVSS中表现最差（A-847从12.0降到5.7），说明直接匹配分布在异构任务迁移中失效

启发与关联¶

信息瓶颈思路可以迁移到VLM的其他下游任务（如grounding、referring segmentation）
"先去噪再蒸馏"的两阶段范式对token compression也有启示——是否可以用MI衡量哪些token是噪声？
matrix-based Rényi entropy的高效计算方法在其他需要MI的场景也值得使用

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将信息论框架引入CLIP微调的OVSS，理论和方法都很新颖
实验充分度: ⭐⭐⭐⭐⭐ 6个测试集+2种backbone+完整消融+效率分析+可视化
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，motivation图直观，论证逻辑严密
价值: ⭐⭐⭐⭐ 在OVSS领域很有价值，但适用范围相对窄