跳转至

InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer

会议: AAAI 2026
arXiv: 2511.15967
代码: https://muyaoyuan.github.io/InfoCLIP-Page
领域: 语义分割 / 多模态VLM
关键词: 开放词汇语义分割, CLIP微调, 信息瓶颈, 互信息蒸馏, 模态对齐

一句话总结

提出InfoCLIP,基于信息论视角设计信息瓶颈压缩和互信息蒸馏两个目标,在CLIP微调过程中去除预训练pixel-text对齐中的噪声并保留语义对齐知识,在6个开放词汇语义分割测试集上全面超越SOTA(A-847: 16.6, A-150: 38.5, PC-59: 63.5 mIoU),且仅增加0.53M参数和极少计算开销。

背景与动机

CLIP在open-vocabulary语义分割中被广泛使用,但微调CLIP时存在根本性矛盾:CLIP预训练学的是image-text全局对齐,而分割需要pixel-text局部对齐。在有限类别数据上微调会导致模态对齐空间收窄(overfitting to seen classes),即使冻结大部分参数也很脆弱——修改少量参数就能破坏特征分布。现有蒸馏方法(MAFT系列)只在图像层面蒸馏视觉特征,未解决pixel-text对齐问题,甚至会降低性能。

核心问题

如何从预训练CLIP中提取精细的pixel-text对齐知识,去除粗粒度表示中的噪声,并有效迁移到微调模型中,避免在seen categories上过拟合?这是一个两阶段挑战:(1) 从噪声中提取有用的像素级对齐关系;(2) 在保持模态对齐的前提下迁移给下游模型。

方法详解

整体框架

InfoCLIP基于CAT-Seg架构,使用frozen pretrained CLIP作为teacher,fine-tuned CLIP作为student。核心包含三个组件:LPAM模块提取pixel-text对齐关系 → 信息瓶颈压缩去噪 → 互信息最大化蒸馏迁移。总损失 = 任务交叉熵损失 + \(\lambda_1\)压缩损失 + \(\lambda_2\)蒸馏损失。

关键设计

  1. Learnable Pixel-Text Alignment Module (LPAM): 接收CLIP图像编码器的dense embeddings (\(D_V\)) 和文本编码器的embeddings (\(D_L\)),通过learned attention产生语义对齐图 \(R \in \mathbb{R}^{(H \times W) \times N_C}\)。使用缩放点积注意力+残差余弦相似度混合计算。Teacher和student共享LPAM参数,分别产出\(R^T\)\(R^S\)。仅0.53M参数,极其轻量。

  2. Semantic Compression via Information Bottleneck(压缩损失\(\mathcal{L}_c\): 最小化预训练CLIP输入embedding \((D_V^T, D_L^T)\)与对齐图\(R^T\)之间的互信息。使用matrix-based Rényi α-entropy(α=2时可用Frobenius范数近似,避免特征值分解,计算复杂度从\(O(n^3)\)降至\(O(n^2)\))。直觉上,第一项压缩对齐特征的冗余信号,第二项保留图像-文本-对齐的联合语义信息,形成信息瓶颈滤除噪声。

  3. Alignment Transfer via Mutual Information(蒸馏损失\(\mathcal{L}_d\): 最大化teacher对齐图\(R^T\)和student对齐图\(R^S\)之间的Rényi互信息。相比KL散度蒸馏,互信息能保留结构信息且不需要密度估计,提供稳定可微的优化目标。前两项起正则化作用,第三项强制teacher-student关系级对齐一致性。

损失函数 / 训练策略

\(\mathcal{L} = \mathcal{L}_{task} + \lambda_1 \mathcal{L}_c + \lambda_2 \mathcal{L}_d\)\(\lambda_1 = \lambda_2 = 1\)(通过超参数敏感性分析确定)。AdamW优化器,decoder和蒸馏模块lr=\(2 \times 10^{-4}\),CLIP骨干lr=\(2 \times 10^{-6}\),batch size=4,80k iterations,单卡A800训练。

实验关键数据

数据集 指标(mIoU) InfoCLIP(ViT-B) CAT-Seg(ViT-B) InfoCLIP(ViT-L) CAT-Seg(ViT-L)
A-847 mIoU 12.6 12.0 16.6 16.0
PC-459 mIoU 19.5 19.0 24.6 23.8
A-150 mIoU 32.1 31.8 38.5 37.9
PC-59 mIoU 58.1 57.5 63.5 63.3
PAS-20 mIoU 95.5 94.6 97.5 97.0
PAS-20b mIoU 78.1 77.3 83.1 82.5

比MAFT+(ViT-L)在PC-459上提升8.4%,PC-59上提升4.5%。训练开销极小:仅多0.53M参数,forward +0.08s, backward +0.03s。

消融实验要点

  • 单独\(\mathcal{L}_d\): A-847 11.3→表现一般;单独\(\mathcal{L}_c\): A-847 11.8→略好;两者结合12.6(+0.6),互补效果明显
  • 传统蒸馏方法(KL散度、MAFT、MAFT+)甚至降低了CAT-Seg性能,说明直接蒸馏在OVSS中不奏效
  • α=2在所有benchmark上最优且计算速度提升56倍(0.5ms vs 28.2ms per iteration)

亮点

  • 信息论视角非常优雅——用information bottleneck去噪+MI最大化蒸馏,理论上有保证,实践中有效
  • "压缩+蒸馏"的两步设计直觉很好:先去除预训练CLIP局部表示的噪声,再把干净的对齐知识迁移给微调模型
  • α=2的Frobenius范数近似是一个很实用的trick——把\(O(n^3)\)降到\(O(n^2)\)且性能更好
  • 方法与模型架构正交(只需要一个lightweight LPAM),可以嫁接到其他OVSS方法上
  • t-SNE可视化清晰展示了seen/unseen class的特征解纠缠效果

局限性 / 可改进方向

  • 只基于CAT-Seg架构验证,未扩展到其他框架(如SAN、FC-CLIP)
  • LPAM使用固定的shared parameters,没有探索teacher/student使用不同LPAM的可能
  • 信息瓶颈的压缩程度由\(\lambda_1\)控制,但对不同场景的最优压缩程度可能不同
  • 未探索与更大VLM(如InternVL、LLaVA)的结合

与相关工作的对比

  • vs CAT-Seg: InfoCLIP在CAT-Seg基础上增加信息论蒸馏,全面超越,且开销极小(+0.53M参数)
  • vs MAFT/MAFT+: MAFT系列在图像级别蒸馏视觉特征,不适用于pixel-based方法,且甚至降低性能。InfoCLIP在pixel-text alignment层面进行蒸馏,效果显著优于它们
  • vs KL蒸馏: 传统KL蒸馏在OVSS中表现最差(A-847从12.0降到5.7),说明直接匹配分布在异构任务迁移中失效

启发与关联

  • 信息瓶颈思路可以迁移到VLM的其他下游任务(如grounding、referring segmentation)
  • "先去噪再蒸馏"的两阶段范式对token compression也有启示——是否可以用MI衡量哪些token是噪声?
  • matrix-based Rényi entropy的高效计算方法在其他需要MI的场景也值得使用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将信息论框架引入CLIP微调的OVSS,理论和方法都很新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 6个测试集+2种backbone+完整消融+效率分析+可视化
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,motivation图直观,论证逻辑严密
  • 价值: ⭐⭐⭐⭐ 在OVSS领域很有价值,但适用范围相对窄