Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models¶

会议: ICML2025
arXiv: 2506.02557
代码: peterant330/KUEA
领域: 视觉表示 / 多模态VLM
关键词: CLIP, DINOv2, 核方法对齐, 视觉表示增强, 零样本分类, MLLM

一句话总结¶

提出基于核函数的无监督嵌入对齐方法（KUEA），通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示，仅用图像数据微调即可增强 CLIP 的细粒度感知能力，同时保持与文本编码器的兼容性，提升下游 MLLM 性能。

研究背景与动机¶

CLIP 通过全局图文对比学习获得了强大的零样本能力，但其视觉编码器在细粒度感知（颜色、空间关系、计数等）方面存在明显不足，这一缺陷会传递到以 CLIP 作为视觉编码器的下游 MLLM（如 LLaVA、OpenFlamingo）。

DINOv2 等视觉自监督模型在像素级细节捕获上远优于 CLIP，但其特征空间与文本编码器不兼容。已有方法面临两难困境：

多编码器融合（Eagle、Cambrian 等）：计算开销大
自监督微调 CLIP（MaskCLIP 等）：破坏图文对齐，丧失零样本能力
重训练 CLIP：成本极高，且产生的新嵌入与下游模型不兼容

本文的核心洞察是：CLIP 中语义相似但视觉差异大的样本在特征空间中高度聚集，而 DINOv2 能够区分这些样本。如果能在保持特征空间宏观结构的前提下，让 CLIP 学习 DINOv2 的样本间相对关系，就能兼得两者优势。

方法详解¶

核心思想：核空间对齐¶

不直接对齐两个模型的特征向量（因维度和空间结构差异极大），而是对齐它们的核矩阵——即样本间的相对相似度结构。

核函数定义¶

采用归一化多项式核（normalized polynomial kernel）：

\[k_{\text{poly}(\gamma,c,d)}(\mathbf{x}, \mathbf{y}) = (\gamma \mathbf{x}^T \mathbf{y} + c)^d\]

归一化操作：

\[\tilde{k}(\mathbf{x}, \mathbf{y}) = \frac{k(\mathbf{x}, \mathbf{y})}{\sqrt{k(\mathbf{x}, \mathbf{x}) \cdot k(\mathbf{y}, \mathbf{y})}}\]

默认采用 degree=3 的多项式核。DINOv2 侧核参数固定（\(\gamma=1/d_{emb}\), \(c=1\)），CLIP 侧核参数设为可训练。

对齐目标¶

对每对随机采样的图像 \((I_i, I_j)\)，最小化两个核函数值的差异：

\[\min_\theta \; \mathbb{E}_{I_i, I_j \sim \mathcal{D}} \left[ \left( k_1(f_\theta(I_i), f_\theta(I_j)) - k_2(g(I_i), g(I_j)) \right)^2 \right]\]

其中 \(f_\theta\) 为 CLIP 视觉编码器（可训练），\(g\) 为 DINOv2（冻结）。

关键理论保证（Proposition 3.1）：基于 Hoeffding 不等式证明梯度的无偏估计可通过有限样本对实现，因此支持随机梯度优化，可扩展到大规模数据。

正则化保持图文对齐¶

为防止微调后的特征偏离原始 CLIP 嵌入过远，加入 L2 正则项：

\[\mathcal{L} = w \cdot \mathcal{L}_{\text{kernel}} + \mathbb{E}_{I_i} \left[ \| f_\theta(I_i) - f_{\theta_0}(I_i) \|_2^2 \right]\]

理论保证（Proposition 3.2）：若 \(\|f_\theta(I) - f_{\theta_0}(I)\|_2 \leq \lambda\)，则图文余弦相似度变化上界为 \(2\lambda / \max\{\|f_\theta(I)\|_2, \|f_{\theta_0}(I)\|_2\}\)，即正则化直接约束了图文对齐的偏移量。

训练配置¶

训练数据：ImageNet-1K 训练集（128 万张图像，仅图像，无文本）
硬件：2× RTX 4090，ViT-L-14 对齐约 30 小时
文本编码器完全冻结，仅微调视觉编码器

实验关键数据¶

零样本分类（12 个数据集平均准确率）¶

模型	原始 CLIP	Projection	Feature	DIVA	Kernel (Ours)
ViT-B-16	61.22	54.17	61.41	—	62.04 (+0.82)
ViT-L-14	65.26	54.07	65.73	65.45	66.54 (+1.28)
ViT-L-14-336	66.10	54.53	66.52	65.30	67.13 (+1.03)

Projection 方式导致零样本性能严重下降（-7~12%），直接特征对齐改进微弱，只有核空间对齐能在保持兼容性的同时有效提升。

图文检索（Flickr30K / COCO）¶

对齐后检索性能不降反升。ViT-L-14-336 在 Flickr30K Image→Text R@1 从 83.0 提升至 84.6，Text→Image R@1 从 64.78 提升至 67.08，证明图文对齐被有效保留。

细粒度感知任务（Linear Probe）¶

任务	ViT-L-14 原始	ViT-L-14 +align	提升
SVHN	65.20	69.39	+4.19
GTSRB	72.94	74.51	+1.57
CLEVR Distance	22.97	30.82	+7.85
CLEVR Counts	41.25	49.67	+8.42

在计数和空间推理任务上提升尤为显著（+5.51% 平均），验证了核对齐有效传递了 DINOv2 的细粒度视觉感知能力。

下游 MLLM 提升¶

LLaVA-1.5-7B（ViT-L-14-336）： - 仅替换视觉编码器（不调 LLM）：平均 60.06→60.88（+0.82） - 替换 + LoRA 微调 LLM：平均 60.18→61.70（+1.52），定位任务平均提升 3.05%

OpenFlamingo-3B（4-shot）： - 平均 45.54→46.16（+0.62），无需微调 LLM

亮点与洞察¶

核空间对齐而非特征空间对齐：绕开了两个模型特征空间结构差异巨大的问题，只对齐样本间相对关系，保持了特征空间的宏观结构
仅需图像数据的轻量微调：无需图文对、无需重训练文本编码器，在 ImageNet-1K 上 2 块 4090 即可完成
即插即用，兼容下游模型：对齐后的视觉编码器可直接替换 LLaVA/OpenFlamingo 中的原始 CLIP，无需重做视觉-语言对齐
理论保证完备：Proposition 3.1 证明了随机优化的可行性，Proposition 3.2 给出了图文对齐偏移的显式上界
泛化性强：除 CLIP+DINOv2 外，还验证了 SigLIP、DFN、MetaCLIP 等模型对的有效性

局限与展望¶

数据规模受限：仅在 ImageNet-1K（128 万图像）上微调，更大规模数据（如 DataComp）可能带来更大提升
仅验证小模型：MLLM 评估限于 LLaVA-7B 和 OpenFlamingo-3B，未扩展到 70B 级别
对齐对象单一：主要聚焦 CLIP↔DINOv2，对其他视觉基础模型（如 BEiT、MAE）的对齐效果未充分探索
提升幅度相对温和：零样本分类平均提升约 1%，对于某些应用场景可能不够显著
未探索 token 级对齐：当前方法仅对齐 CLS token 级嵌入，patch token 级的对齐可能进一步提升密集预测性能

评分¶

新颖性: ⭐⭐⭐⭐ — 核空间对齐的视角很新颖，避免了直接特征对齐的困难
实验充分度: ⭐⭐⭐⭐ — 覆盖零样本分类/检索/细粒度感知/MLLM 多个维度，消融实验完整
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，动机阐述有力
价值: ⭐⭐⭐⭐ — 轻量级、即插即用的方案有很强的实用性，为 MLLM 视觉增强提供了新思路