Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models¶
会议: ICML2025
arXiv: 2506.02557
代码: peterant330/KUEA
领域: 视觉表示 / 多模态VLM
关键词: CLIP, DINOv2, 核方法对齐, 视觉表示增强, 零样本分类, MLLM
一句话总结¶
提出基于核函数的无监督嵌入对齐方法(KUEA),通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示,仅用图像数据微调即可增强 CLIP 的细粒度感知能力,同时保持与文本编码器的兼容性,提升下游 MLLM 性能。
研究背景与动机¶
CLIP 通过全局图文对比学习获得了强大的零样本能力,但其视觉编码器在细粒度感知(颜色、空间关系、计数等)方面存在明显不足,这一缺陷会传递到以 CLIP 作为视觉编码器的下游 MLLM(如 LLaVA、OpenFlamingo)。
DINOv2 等视觉自监督模型在像素级细节捕获上远优于 CLIP,但其特征空间与文本编码器不兼容。已有方法面临两难困境:
- 多编码器融合(Eagle、Cambrian 等):计算开销大
- 自监督微调 CLIP(MaskCLIP 等):破坏图文对齐,丧失零样本能力
- 重训练 CLIP:成本极高,且产生的新嵌入与下游模型不兼容
本文的核心洞察是:CLIP 中语义相似但视觉差异大的样本在特征空间中高度聚集,而 DINOv2 能够区分这些样本。如果能在保持特征空间宏观结构的前提下,让 CLIP 学习 DINOv2 的样本间相对关系,就能兼得两者优势。
方法详解¶
核心思想:核空间对齐¶
不直接对齐两个模型的特征向量(因维度和空间结构差异极大),而是对齐它们的核矩阵——即样本间的相对相似度结构。
核函数定义¶
采用归一化多项式核(normalized polynomial kernel):
归一化操作:
默认采用 degree=3 的多项式核。DINOv2 侧核参数固定(\(\gamma=1/d_{emb}\), \(c=1\)),CLIP 侧核参数设为可训练。
对齐目标¶
对每对随机采样的图像 \((I_i, I_j)\),最小化两个核函数值的差异:
其中 \(f_\theta\) 为 CLIP 视觉编码器(可训练),\(g\) 为 DINOv2(冻结)。
关键理论保证(Proposition 3.1):基于 Hoeffding 不等式证明梯度的无偏估计可通过有限样本对实现,因此支持随机梯度优化,可扩展到大规模数据。
正则化保持图文对齐¶
为防止微调后的特征偏离原始 CLIP 嵌入过远,加入 L2 正则项:
理论保证(Proposition 3.2):若 \(\|f_\theta(I) - f_{\theta_0}(I)\|_2 \leq \lambda\),则图文余弦相似度变化上界为 \(2\lambda / \max\{\|f_\theta(I)\|_2, \|f_{\theta_0}(I)\|_2\}\),即正则化直接约束了图文对齐的偏移量。
训练配置¶
- 训练数据:ImageNet-1K 训练集(128 万张图像,仅图像,无文本)
- 硬件:2× RTX 4090,ViT-L-14 对齐约 30 小时
- 文本编码器完全冻结,仅微调视觉编码器
实验关键数据¶
零样本分类(12 个数据集平均准确率)¶
| 模型 | 原始 CLIP | Projection | Feature | DIVA | Kernel (Ours) |
|---|---|---|---|---|---|
| ViT-B-16 | 61.22 | 54.17 | 61.41 | — | 62.04 (+0.82) |
| ViT-L-14 | 65.26 | 54.07 | 65.73 | 65.45 | 66.54 (+1.28) |
| ViT-L-14-336 | 66.10 | 54.53 | 66.52 | 65.30 | 67.13 (+1.03) |
Projection 方式导致零样本性能严重下降(-7~12%),直接特征对齐改进微弱,只有核空间对齐能在保持兼容性的同时有效提升。
图文检索(Flickr30K / COCO)¶
对齐后检索性能不降反升。ViT-L-14-336 在 Flickr30K Image→Text R@1 从 83.0 提升至 84.6,Text→Image R@1 从 64.78 提升至 67.08,证明图文对齐被有效保留。
细粒度感知任务(Linear Probe)¶
| 任务 | ViT-L-14 原始 | ViT-L-14 +align | 提升 |
|---|---|---|---|
| SVHN | 65.20 | 69.39 | +4.19 |
| GTSRB | 72.94 | 74.51 | +1.57 |
| CLEVR Distance | 22.97 | 30.82 | +7.85 |
| CLEVR Counts | 41.25 | 49.67 | +8.42 |
在计数和空间推理任务上提升尤为显著(+5.51% 平均),验证了核对齐有效传递了 DINOv2 的细粒度视觉感知能力。
下游 MLLM 提升¶
LLaVA-1.5-7B(ViT-L-14-336): - 仅替换视觉编码器(不调 LLM):平均 60.06→60.88(+0.82) - 替换 + LoRA 微调 LLM:平均 60.18→61.70(+1.52),定位任务平均提升 3.05%
OpenFlamingo-3B(4-shot): - 平均 45.54→46.16(+0.62),无需微调 LLM
亮点与洞察¶
- 核空间对齐而非特征空间对齐:绕开了两个模型特征空间结构差异巨大的问题,只对齐样本间相对关系,保持了特征空间的宏观结构
- 仅需图像数据的轻量微调:无需图文对、无需重训练文本编码器,在 ImageNet-1K 上 2 块 4090 即可完成
- 即插即用,兼容下游模型:对齐后的视觉编码器可直接替换 LLaVA/OpenFlamingo 中的原始 CLIP,无需重做视觉-语言对齐
- 理论保证完备:Proposition 3.1 证明了随机优化的可行性,Proposition 3.2 给出了图文对齐偏移的显式上界
- 泛化性强:除 CLIP+DINOv2 外,还验证了 SigLIP、DFN、MetaCLIP 等模型对的有效性
局限与展望¶
- 数据规模受限:仅在 ImageNet-1K(128 万图像)上微调,更大规模数据(如 DataComp)可能带来更大提升
- 仅验证小模型:MLLM 评估限于 LLaVA-7B 和 OpenFlamingo-3B,未扩展到 70B 级别
- 对齐对象单一:主要聚焦 CLIP↔DINOv2,对其他视觉基础模型(如 BEiT、MAE)的对齐效果未充分探索
- 提升幅度相对温和:零样本分类平均提升约 1%,对于某些应用场景可能不够显著
- 未探索 token 级对齐:当前方法仅对齐 CLS token 级嵌入,patch token 级的对齐可能进一步提升密集预测性能
评分¶
- 新颖性: ⭐⭐⭐⭐ — 核空间对齐的视角很新颖,避免了直接特征对齐的困难
- 实验充分度: ⭐⭐⭐⭐ — 覆盖零样本分类/检索/细粒度感知/MLLM 多个维度,消融实验完整
- 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,动机阐述有力
- 价值: ⭐⭐⭐⭐ — 轻量级、即插即用的方案有很强的实用性,为 MLLM 视觉增强提供了新思路
相关论文¶
- [ACL 2025] OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
- [ICCV 2025] Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning
- [CVPR 2026] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
- [CVPR 2026] Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
- [ICML 2025] Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin