Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models¶
会议: AAAI 2026
arXiv: 2511.09973
代码: 无公开代码
领域: 多模态VLM
关键词: CLIP微调, 鲁棒微调, 嵌入几何结构保持, 分布外泛化, 零样本性能
一句话总结¶
提出DiVE方法,通过约束预训练和微调模型嵌入之间的"差异向量"在各样本间保持相等,从而在CLIP微调过程中保持嵌入空间的几何结构,同时在ID、OOD、零样本三个指标上取得全面优于现有方法的结果(零样本平均提升8+点)。
背景与动机¶
CLIP等对比预训练视觉-语言模型在零样本分类上表现强劲,但在特定下游任务上的表现常不够理想(如卫星图像等偏离预训练分布的数据)。常规做法是在下游数据上微调,但这会严重破坏模型的泛化能力——ID性能提升的同时,OOD和零样本性能大幅下降。
现有鲁棒微调方法(如FLYP、ARF)都采用对比学习进行微调。然而作者发现这些方法会扭曲预训练学到的嵌入几何结构(即嵌入间的相对位置关系)。由于嵌入间的相对距离反映了输入间的语义相似性,几何结构的破坏直接导致泛化能力退化。这是一个此前被忽视的关键观察。
核心问题¶
能否通过保持预训练嵌入的几何结构来改善视觉-语言模型的鲁棒微调?
这是一个清晰且重要的研究问题。现有方法虽然用了对比学习、replay等策略,但从未显式关注嵌入空间的几何结构保持。作者用RSA(Representation Similarity Analysis)定量验证了现有方法确实破坏了几何结构(RSA分数仅0.825-0.850),并提出了明确的解决方案。
方法详解¶
整体框架¶
DiVE建立在FLYP之上(即用对比损失进行微调,同时更新图像和文本编码器)。在微调过程中,除了使用目标数据的对比损失外,DiVE还引入了一个参考数据集(如CC3M),用于计算"差异向量"并施加约束。
核心流程: 1. 对于参考数据集中的每个图像/文本样本,分别用预训练模型和当前微调模型提取嵌入 2. 计算差异向量:\(u(\mathbf{x}) = f_{\theta^{ft}}(\mathbf{x}) - f_{\theta^{pre}}(\mathbf{x})\),\(v(\mathbf{t}) = g_{\phi^{ft}}(\mathbf{t}) - g_{\phi^{pre}}(\mathbf{t})\) 3. 通过AVL和PVL两个损失,约束所有差异向量尽量相等 4. 推理时只使用微调后的模型,无额外计算开销
直觉解释:如果所有差异向量都相等,意味着微调只是在嵌入空间中做了一个统一的平移,嵌入间的相对位置(几何结构)完全保持不变。
关键设计¶
-
差异向量 (Difference Vector):定义为同一样本在微调模型和预训练模型下嵌入的差值。这是DiVE的核心概念——通过控制这些差异向量来间接控制几何结构变化。这比直接约束嵌入(如SnD的方式)更灵活,因为它允许非零差异向量存在,给微调留出了适应空间。
-
平均向量损失 AVL (Average Vector Loss):计算所有差异向量的指数移动平均 \(\mathbf{m}\)(\(\alpha=0.99\)),然后约束每个差异向量向这个平均值靠拢。这保持了嵌入空间的全局几何结构。使用EMA而非批次均值使平均向量在训练过程中保持稳定。
-
成对向量损失 PVL (Pairwise Vector Loss):约束每对配对的图像-文本的差异向量相等:\(\|u(\mathbf{x}_j^{ref}) - v(\mathbf{t}_j^{ref})\|^2\)。这保持了局部几何结构——确保图像-文本配对的对齐关系在微调后不被打乱,对推理阶段的分类至关重要。
损失函数 / 训练策略¶
- \(\mathcal{L}_{cl}\):标准对比损失,在目标数据上计算(继承FLYP)
- \(\mathcal{L}_{avl} = \frac{1}{B'}\sum_{j=1}^{B'}(\|u(\mathbf{x}_j^{ref}) - \mathbf{m}\|^2 + \|v(\mathbf{t}_j^{ref}) - \mathbf{m}\|^2)\)
- \(\mathcal{L}_{pvl} = \frac{1}{B'}\sum_{j=1}^{B'}\|u(\mathbf{x}_j^{ref}) - v(\mathbf{t}_j^{ref})\|^2\)
- \(\lambda = 1000\)(在{100,500,1000,2500,5000}中选取,对所有数据集通用)
- EMA系数\(\alpha = 0.99\),初始平均向量为零向量
- 优化器:AdamW,余弦学习率调度,warmup 500步
实验关键数据¶
ImageNet ID/OOD 性能 (ViT-B/16)¶
| 方法 | ImageNet (ID) | IN-V2 | IN-R | IN-A | IN-Sketch | ObjectNet | OOD avg |
|---|---|---|---|---|---|---|---|
| Pre-trained | 68.3 | 61.9 | 77.7 | 50.0 | 48.3 | 55.4 | 58.7 |
| Vanilla FT | 81.3 | 71.2 | 66.1 | 37.8 | 46.1 | 53.3 | 54.9 |
| LP-FT | 81.7 | 72.1 | 73.5 | 47.6 | 50.3 | 58.2 | 60.3 |
| FLYP | 82.2 | 73.0 | 71.5 | 48.4 | 49.7 | 54.8 | 59.5 |
| ARF | 82.7 | 72.8 | 75.6 | 50.3 | 51.8 | 55.8 | 61.3 |
| SnD | 82.4 | 73.2 | 74.3 | 50.0 | 51.4 | 54.5 | 60.7 |
| DiVE | 82.5 | 73.8 | 77.3 | 54.9 | 52.9 | 56.9 | 63.2 |
零样本性能 (ImageNet为目标任务, ViT-B/16)¶
| 方法 | Caltech | Flowers | Food | SUN | DTD | Aircraft | Cars | Pets | EuroSAT | UCF | avg |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Pre-trained | 89.5 | 67.0 | 84.5 | 63.0 | 46.3 | 22.6 | 59.0 | 87.7 | 46.3 | 65.7 | 63.2 |
| FLYP | 87.6 | 39.7 | 63.3 | 52.6 | 36.8 | 8.0 | 32.3 | 77.2 | 38.2 | 59.0 | 49.5 |
| ARF | 88.6 | 46.4 | 74.5 | 63.8 | 40.4 | 13.9 | 44.7 | 83.1 | 35.8 | 64.6 | 55.6 |
| SnD | 89.1 | 49.5 | 69.6 | 58.7 | 38.7 | 11.0 | 42.5 | 79.6 | 42.7 | 62.6 | 54.4 |
| DiVE | 88.4 | 66.0 | 84.3 | 64.7 | 47.0 | 22.1 | 55.5 | 88.4 | 51.4 | 68.9 | 63.7 |
DiVE的零样本平均比ARF高出8.1个百分点,几乎恢复到预训练水平(63.7 vs 63.2),同时ID性能提升了14.2点。
iWildCam / FMoW 结果¶
| 方法 | iWildCam ID | iWildCam OOD | iWildCam ZS | FMoW ID | FMoW OOD | FMoW ZS |
|---|---|---|---|---|---|---|
| FLYP | 52.2 | 35.6 | 51.0 | 68.6 | 41.3 | 45.1 |
| FLYP+replay | 48.5 | 35.8 | 62.3 | 68.7 | 41.2 | 63.0 |
| SnD | 50.6 | 37.0 | 60.4 | 67.0 | 41.4 | 56.6 |
| DiVE | 53.1 | 37.2 | 65.3 | 69.9 | 42.3 | 65.1 |
ViT-L/14 结果¶
| 方法 | ImageNet (ID) | OOD avg | ZS avg |
|---|---|---|---|
| FLYP | 86.0 | 71.5 | 55.4 |
| FLYP+replay | 85.8 | 72.6 | 65.9 |
| SnD | 86.0 | 73.2 | 61.2 |
| DiVE | 86.1 | 74.5 | 70.1 |
RSA几何结构保持评估¶
| 方法 | RSA相关分数 |
|---|---|
| FLYP | 0.825 |
| FLYP + replay (ARF proxy) | 0.850 |
| SnD | 0.847 |
| FLYP + AVL | 0.978 |
| FLYP + PVL | 0.976 |
| DiVE | 0.981 |
消融实验要点¶
- AVL vs PVL: AVL贡献更大(OOD +3.4, ZS +13.4 vs PVL的 +3.1, +13.2),但两者互补,组合效果最佳(OOD +3.7, ZS +14.2)
- EMA系数α: α=0时效果较差(OOD 61.7),α=0.99时最优(OOD 62.9)——稳定的平均向量至关重要
- Cosine vs Vector约束: 基于余弦相似度的约束(类似CyCLIP)RSA仅0.949,不如差异向量约束(0.981)——余弦只捕获角度关系,缺少方向信息
- 参考数据集规模: Flickr8K(8K) → COCO(118K) → CC3M(3M) 性能递增,但即使用小数据集也优于基线
- Weight ensemble: DiVE + ensemble可进一步提升(82.5→82.6 ID, 63.2→63.5 OOD, 63.7→64.6 ZS)
亮点¶
- 切入角度新颖:从嵌入几何结构保持的角度理解鲁棒微调问题,提供了清晰的理论直觉——"微调=统一平移"就能保持几何结构
- 方法简洁有效:只需要两个简单的L2损失(AVL和PVL),不需要复杂的架构改动,实现门槛低
- 零样本性能恢复惊人:微调后零样本平均仅下降2.3点(63.7 vs 预训练63.2),而FLYP下降了13.7点——这在实际应用中非常有价值
- RSA分析令人信服:用定量指标(RSA相关分数0.981)直接验证了"保持几何结构"的假设,不只是看最终性能
- 与SnD的对比揭示了关键洞见:SnD约束差异向量为零(过度约束),DiVE约束差异向量相等但可以非零(更灵活),后者显著更好
局限性 / 可改进方向¶
- 计算开销较大:GPU内存从117K MB增至321K MB,训练时间从35.9h增至58.9h(需额外参考数据集前向/反向传播),这在大模型上可能成为瓶颈
- 依赖参考数据集:需要CC3M这样的大规模图像-文本数据集,在某些应用场景下获取和存储这类数据不方便
- 缺乏理论分析:为什么差异向量相等就能保持几何结构?论文只给了直觉解释,没有严格的理论证明(作者在结论中也承认了这一点)
- 未考虑prompt learning方法:和CoOp/CoCoOp等prompt learning方法没有充分对比,这些方法在某些设置下可能更实用
- 仅实验了分类任务:所有实验都是分类任务,没有验证在检测、分割等更复杂的下游任务上的效果
- \(\lambda=1000\) 感觉偏大:约束损失的权重是对比损失的1000倍,这意味着保持结构远比适应目标数据重要,可能存在更好的调度策略
与相关工作的对比¶
vs FLYP: DiVE在FLYP基础上增加了几何结构约束。FLYP只使用对比损失微调两个编码器,没有显式的正则化,导致几何结构严重破坏(RSA 0.825)。DiVE几乎完美保持(RSA 0.981),OOD +3.7, ZS +14.2。
vs ARF: ARF使用参考数据集的对比损失作为replay,本质上是一种经验回放策略。它改善了零样本性能但提升有限(ZS 55.6 vs DiVE 63.7)。核心区别在于ARF没有显式约束几何结构(RSA仅0.850),而DiVE直接优化几何结构保持。
vs SnD: SnD约束差异向量为零(即\(f_{\theta^{ft}}(\mathbf{x}) = f_{\theta^{pre}}(\mathbf{x})\)),这等于完全冻结图像编码器在参考数据上的行为。过于严格的约束限制了对目标数据的适应能力。DiVE允许非零但相等的差异向量,提供了更好的灵活性-保持平衡。另外SnD只约束图像编码器,DiVE同时约束图像和文本编码器。
启发与关联¶
- 与domain generalization的关系:本文虽然不是传统DG方法,但其核心思想——在适应新域的同时保持表征的几何结构不变——和DG中的"学习域不变表征"有相通之处。差异向量相等的约束本质上是一种结构化的知识蒸馏
- 可迁移的思路:差异向量equalization的思想可以尝试应用于其他需要微调大模型的场景,比如LLM的instruction tuning、adapter tuning等,核心思路是"允许移动但保持相对位置"
- 与continual learning的交叉:本文方法本质上是在微调(新任务学习)时保持旧知识的结构,这和持续学习中的知识保持高度相关,但用了更灵活的方式(相等约束 vs 零约束)
评分¶
- 新颖性: ⭐⭐⭐⭐ 从嵌入几何结构保持的角度切入鲁棒微调是新颖的,但整体上是在FLYP框架上加正则化,方法形式上不算特别惊艳
- 实验充分度: ⭐⭐⭐⭐⭐ 多个数据集(ImageNet/iWildCam/FMoW)、多架构(ViT-B/16、ViT-L/14)、详细的消融研究、RSA分析、统计显著性检验、参考数据集消融、weight ensemble实验,非常全面
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,动机阐述透彻,从发现问题(RSA分析)到解决方案到验证假设形成了完整的故事线
- 价值: ⭐⭐⭐⭐ 在CLIP鲁棒微调这个重要问题上取得了显著进步,尤其是零样本性能的巨大提升具有很强的实用价值,但计算开销和缺乏代码发布限制了实际影响力