Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models¶

会议: AAAI 2026
arXiv: 2511.09973
代码: 无公开代码
领域: 多模态VLM
关键词: CLIP微调, 鲁棒微调, 嵌入几何结构保持, 分布外泛化, 零样本性能

一句话总结¶

提出DiVE方法，通过约束预训练和微调模型嵌入之间的"差异向量"在各样本间保持相等，从而在CLIP微调过程中保持嵌入空间的几何结构，同时在ID、OOD、零样本三个指标上取得全面优于现有方法的结果（零样本平均提升8+点）。

背景与动机¶

CLIP等对比预训练视觉-语言模型在零样本分类上表现强劲，但在特定下游任务上的表现常不够理想（如卫星图像等偏离预训练分布的数据）。常规做法是在下游数据上微调，但这会严重破坏模型的泛化能力——ID性能提升的同时，OOD和零样本性能大幅下降。

现有鲁棒微调方法（如FLYP、ARF）都采用对比学习进行微调。然而作者发现这些方法会扭曲预训练学到的嵌入几何结构（即嵌入间的相对位置关系）。由于嵌入间的相对距离反映了输入间的语义相似性，几何结构的破坏直接导致泛化能力退化。这是一个此前被忽视的关键观察。

核心问题¶

能否通过保持预训练嵌入的几何结构来改善视觉-语言模型的鲁棒微调？

这是一个清晰且重要的研究问题。现有方法虽然用了对比学习、replay等策略，但从未显式关注嵌入空间的几何结构保持。作者用RSA（Representation Similarity Analysis）定量验证了现有方法确实破坏了几何结构（RSA分数仅0.825-0.850），并提出了明确的解决方案。

方法详解¶

整体框架¶

DiVE建立在FLYP之上（即用对比损失进行微调，同时更新图像和文本编码器）。在微调过程中，除了使用目标数据的对比损失外，DiVE还引入了一个参考数据集（如CC3M），用于计算"差异向量"并施加约束。

核心流程： 1. 对于参考数据集中的每个图像/文本样本，分别用预训练模型和当前微调模型提取嵌入 2. 计算差异向量：\(u(\mathbf{x}) = f_{\theta^{ft}}(\mathbf{x}) - f_{\theta^{pre}}(\mathbf{x})\)，\(v(\mathbf{t}) = g_{\phi^{ft}}(\mathbf{t}) - g_{\phi^{pre}}(\mathbf{t})\) 3. 通过AVL和PVL两个损失，约束所有差异向量尽量相等 4. 推理时只使用微调后的模型，无额外计算开销

直觉解释：如果所有差异向量都相等，意味着微调只是在嵌入空间中做了一个统一的平移，嵌入间的相对位置（几何结构）完全保持不变。

关键设计¶

差异向量 (Difference Vector)：定义为同一样本在微调模型和预训练模型下嵌入的差值。这是DiVE的核心概念——通过控制这些差异向量来间接控制几何结构变化。这比直接约束嵌入（如SnD的方式）更灵活，因为它允许非零差异向量存在，给微调留出了适应空间。
平均向量损失 AVL (Average Vector Loss)：计算所有差异向量的指数移动平均 \(\mathbf{m}\)（\(\alpha=0.99\)），然后约束每个差异向量向这个平均值靠拢。这保持了嵌入空间的全局几何结构。使用EMA而非批次均值使平均向量在训练过程中保持稳定。
成对向量损失 PVL (Pairwise Vector Loss)：约束每对配对的图像-文本的差异向量相等：\(\|u(\mathbf{x}_j^{ref}) - v(\mathbf{t}_j^{ref})\|^2\)。这保持了局部几何结构——确保图像-文本配对的对齐关系在微调后不被打乱，对推理阶段的分类至关重要。

损失函数 / 训练策略¶

\[\mathcal{L}_{final} = \mathcal{L}_{cl} + \lambda \cdot (\mathcal{L}_{avl} + \mathcal{L}_{pvl})\]

\(\mathcal{L}_{cl}\)：标准对比损失，在目标数据上计算（继承FLYP）
\(\mathcal{L}_{avl} = \frac{1}{B'}\sum_{j=1}^{B'}(\|u(\mathbf{x}_j^{ref}) - \mathbf{m}\|^2 + \|v(\mathbf{t}_j^{ref}) - \mathbf{m}\|^2)\)
\(\mathcal{L}_{pvl} = \frac{1}{B'}\sum_{j=1}^{B'}\|u(\mathbf{x}_j^{ref}) - v(\mathbf{t}_j^{ref})\|^2\)
\(\lambda = 1000\)（在{100,500,1000,2500,5000}中选取，对所有数据集通用）
EMA系数\(\alpha = 0.99\)，初始平均向量为零向量
优化器：AdamW，余弦学习率调度，warmup 500步

实验关键数据¶

ImageNet ID/OOD 性能 (ViT-B/16)¶

方法	ImageNet (ID)	IN-V2	IN-R	IN-A	IN-Sketch	ObjectNet	OOD avg
Pre-trained	68.3	61.9	77.7	50.0	48.3	55.4	58.7
Vanilla FT	81.3	71.2	66.1	37.8	46.1	53.3	54.9
LP-FT	81.7	72.1	73.5	47.6	50.3	58.2	60.3
FLYP	82.2	73.0	71.5	48.4	49.7	54.8	59.5
ARF	82.7	72.8	75.6	50.3	51.8	55.8	61.3
SnD	82.4	73.2	74.3	50.0	51.4	54.5	60.7
DiVE	82.5	73.8	77.3	54.9	52.9	56.9	63.2

零样本性能 (ImageNet为目标任务, ViT-B/16)¶

方法	Caltech	Flowers	Food	SUN	DTD	Aircraft	Cars	Pets	EuroSAT	UCF	avg
Pre-trained	89.5	67.0	84.5	63.0	46.3	22.6	59.0	87.7	46.3	65.7	63.2
FLYP	87.6	39.7	63.3	52.6	36.8	8.0	32.3	77.2	38.2	59.0	49.5
ARF	88.6	46.4	74.5	63.8	40.4	13.9	44.7	83.1	35.8	64.6	55.6
SnD	89.1	49.5	69.6	58.7	38.7	11.0	42.5	79.6	42.7	62.6	54.4
DiVE	88.4	66.0	84.3	64.7	47.0	22.1	55.5	88.4	51.4	68.9	63.7

DiVE的零样本平均比ARF高出8.1个百分点，几乎恢复到预训练水平（63.7 vs 63.2），同时ID性能提升了14.2点。

iWildCam / FMoW 结果¶

方法	iWildCam ID	iWildCam OOD	iWildCam ZS	FMoW ID	FMoW OOD	FMoW ZS
FLYP	52.2	35.6	51.0	68.6	41.3	45.1
FLYP+replay	48.5	35.8	62.3	68.7	41.2	63.0
SnD	50.6	37.0	60.4	67.0	41.4	56.6
DiVE	53.1	37.2	65.3	69.9	42.3	65.1

ViT-L/14 结果¶

方法	ImageNet (ID)	OOD avg	ZS avg
FLYP	86.0	71.5	55.4
FLYP+replay	85.8	72.6	65.9
SnD	86.0	73.2	61.2
DiVE	86.1	74.5	70.1

RSA几何结构保持评估¶

方法	RSA相关分数
FLYP	0.825
FLYP + replay (ARF proxy)	0.850
SnD	0.847
FLYP + AVL	0.978
FLYP + PVL	0.976
DiVE	0.981

消融实验要点¶

AVL vs PVL: AVL贡献更大（OOD +3.4, ZS +13.4 vs PVL的 +3.1, +13.2），但两者互补，组合效果最佳（OOD +3.7, ZS +14.2）
EMA系数α: α=0时效果较差（OOD 61.7），α=0.99时最优（OOD 62.9）——稳定的平均向量至关重要
Cosine vs Vector约束: 基于余弦相似度的约束（类似CyCLIP）RSA仅0.949，不如差异向量约束（0.981）——余弦只捕获角度关系，缺少方向信息
参考数据集规模: Flickr8K(8K) → COCO(118K) → CC3M(3M) 性能递增，但即使用小数据集也优于基线
Weight ensemble: DiVE + ensemble可进一步提升（82.5→82.6 ID, 63.2→63.5 OOD, 63.7→64.6 ZS）

亮点¶

切入角度新颖：从嵌入几何结构保持的角度理解鲁棒微调问题，提供了清晰的理论直觉——"微调=统一平移"就能保持几何结构
方法简洁有效：只需要两个简单的L2损失（AVL和PVL），不需要复杂的架构改动，实现门槛低
零样本性能恢复惊人：微调后零样本平均仅下降2.3点（63.7 vs 预训练63.2），而FLYP下降了13.7点——这在实际应用中非常有价值
RSA分析令人信服：用定量指标（RSA相关分数0.981）直接验证了"保持几何结构"的假设，不只是看最终性能
与SnD的对比揭示了关键洞见：SnD约束差异向量为零（过度约束），DiVE约束差异向量相等但可以非零（更灵活），后者显著更好

局限性 / 可改进方向¶

计算开销较大：GPU内存从117K MB增至321K MB，训练时间从35.9h增至58.9h（需额外参考数据集前向/反向传播），这在大模型上可能成为瓶颈
依赖参考数据集：需要CC3M这样的大规模图像-文本数据集，在某些应用场景下获取和存储这类数据不方便
缺乏理论分析：为什么差异向量相等就能保持几何结构？论文只给了直觉解释，没有严格的理论证明（作者在结论中也承认了这一点）
未考虑prompt learning方法：和CoOp/CoCoOp等prompt learning方法没有充分对比，这些方法在某些设置下可能更实用
仅实验了分类任务：所有实验都是分类任务，没有验证在检测、分割等更复杂的下游任务上的效果
\(\lambda=1000\) 感觉偏大：约束损失的权重是对比损失的1000倍，这意味着保持结构远比适应目标数据重要，可能存在更好的调度策略

与相关工作的对比¶

vs FLYP: DiVE在FLYP基础上增加了几何结构约束。FLYP只使用对比损失微调两个编码器，没有显式的正则化，导致几何结构严重破坏（RSA 0.825）。DiVE几乎完美保持（RSA 0.981），OOD +3.7, ZS +14.2。

vs ARF: ARF使用参考数据集的对比损失作为replay，本质上是一种经验回放策略。它改善了零样本性能但提升有限（ZS 55.6 vs DiVE 63.7）。核心区别在于ARF没有显式约束几何结构（RSA仅0.850），而DiVE直接优化几何结构保持。

vs SnD: SnD约束差异向量为零（即\(f_{\theta^{ft}}(\mathbf{x}) = f_{\theta^{pre}}(\mathbf{x})\)），这等于完全冻结图像编码器在参考数据上的行为。过于严格的约束限制了对目标数据的适应能力。DiVE允许非零但相等的差异向量，提供了更好的灵活性-保持平衡。另外SnD只约束图像编码器，DiVE同时约束图像和文本编码器。

启发与关联¶

与domain generalization的关系：本文虽然不是传统DG方法，但其核心思想——在适应新域的同时保持表征的几何结构不变——和DG中的"学习域不变表征"有相通之处。差异向量相等的约束本质上是一种结构化的知识蒸馏
可迁移的思路：差异向量equalization的思想可以尝试应用于其他需要微调大模型的场景，比如LLM的instruction tuning、adapter tuning等，核心思路是"允许移动但保持相对位置"
与continual learning的交叉：本文方法本质上是在微调（新任务学习）时保持旧知识的结构，这和持续学习中的知识保持高度相关，但用了更灵活的方式（相等约束 vs 零约束）

评分¶

新颖性: ⭐⭐⭐⭐ 从嵌入几何结构保持的角度切入鲁棒微调是新颖的，但整体上是在FLYP框架上加正则化，方法形式上不算特别惊艳
实验充分度: ⭐⭐⭐⭐⭐ 多个数据集（ImageNet/iWildCam/FMoW）、多架构（ViT-B/16、ViT-L/14）、详细的消融研究、RSA分析、统计显著性检验、参考数据集消融、weight ensemble实验，非常全面
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，动机阐述透彻，从发现问题（RSA分析）到解决方案到验证假设形成了完整的故事线
价值: ⭐⭐⭐⭐ 在CLIP鲁棒微调这个重要问题上取得了显著进步，尤其是零样本性能的巨大提升具有很强的实用价值，但计算开销和缺乏代码发布限制了实际影响力