Continual Learning with Vision-Language Models via Semantic-Geometry Preservation¶
会议: CVPR 2025
arXiv: 2603.12055
代码: 待确认
领域: 多模态VLM
关键词: continual learning, VLM, semantic geometry, adversarial anchor, knowledge distillation
一句话总结¶
提出 SeGP-CL 框架,通过对抗性锚点(DPGD)精准探测新旧任务语义边界的脆弱区域,结合跨模态几何蒸馏(ACGD)和文本语义正则化(TSGR)保护 VLM 的跨模态几何结构,在五个持续学习 benchmark 上达到 SOTA。
研究背景与动机¶
- 领域现状:VLM-based 持续学习方法包括 prompt-based(L2P, DualPrompt)、adapter-based(MoE-Adapter)和利用文本先验的方法(ENGINE, DesCLIP)。这些方法在减少遗忘方面取得了进展。
- 现有痛点:(1) 现有方法要么过于保守(冻结大量参数导致学不到新知识),要么更新时没有针对性地保护跨模态几何结构;(2) 需要旧数据的方法违反 exemplar-free 约束;(3) 基于参考数据的蒸馏方法缺乏对漂移敏感区域的针对性约束。
- 核心矛盾:几何漂移不是均匀发生的——它集中在新旧语义的交界区域("boundary vulnerability"),那里的共享视觉模式容易被新任务的文本语义重新解释。但现有方法无法精确定位和保护这些脆弱区域。
- 本文要解决什么? 如何在 exemplar-free 条件下精准保护 VLM 跨模态几何的脆弱区域?
- 切入角度:利用对抗攻击的思路——如果微小扰动能改变图像-文本对齐关系,那么同样的扰动可以用来主动发现和覆盖最脆弱的几何邻域。
- 核心idea一句话:用双目标 PGD 构造对抗锚点探测新旧语义边界,在锚点上做跨模态几何蒸馏保护脆弱区域。
方法详解¶
整体框架¶
三阶段:(1) 训练前:DPGD 构造对抗锚点集 \(\mathcal{A}_t\);(2) 训练中:CE 损失学新任务 + ACGD 在锚点上蒸馏旧知识 + TSGR 正则化文本语义;(3) 训练后:锚点诱导的原型迁移 + 双路径推理(CLIP 分支 + 视觉原型分支融合)。
关键设计¶
- Dual-Targeted PGD (DPGD) 锚点构造:
- 做什么:构造落在新旧语义边界脆弱区域的对抗样本
- 核心思路:选择与旧类文本原型相似度最高的 \(K_{seed}\) 个新任务样本作为种子,通过 PGD 优化双目标 \(\mathcal{L}_{adv}' = \mathcal{L}_{adv} + \lambda_p \mathcal{L}_{v\text{-}adv}\):文本目标将样本推向旧类文本嵌入,视觉目标将样本拉向旧类视觉原型。迭代 \(\delta^{(k+1)} = \Pi(\delta^{(k)} - \gamma \text{sign}(\nabla_\delta \mathcal{L}_{adv}'))\)
-
设计动机:纯文本目标的攻击因模态间隙可能产生视觉不合理的锚点;双目标使锚点同时在文本语义和视觉空间中落入旧类区域
-
Anchor-guided Cross-modal Geometry Distillation (ACGD):
- 做什么:在锚点上蒸馏旧模型的跨模态相似度分布
- 核心思路:对每个锚点,计算 teacher 和 student 对所有旧类的跨模态相似度分布,用 KL 散度约束学生不偏离:\(\mathcal{L}_{ACGD} = D_{KL}(p^T_{clip} \| p^S_{clip})\)
-
设计动机:比在全部新数据上蒸馏更精准(Fig.2b 实验验证),因为锚点专门覆盖漂移最严重的区域
-
Text Semantic-Geometry Regularization (TSGR):
- 做什么:保持文本嵌入间的相对几何关系稳定
- 核心思路:构建关键关系子图(基于文本嵌入间相似度选取重要边),约束子图中每条边的相似度在更新前后保持一致
-
设计动机:跨模态对齐不仅取决于图像-文本关系,还取决于文本概念间的相对位置。如果文本参考系漂移,旧类语义坐标会被隐式重参数化
-
锚点诱导原型迁移 + 双路径推理:
- 做什么:训练后利用锚点估计视觉空间漂移,迁移旧类原型
- 核心思路:测量锚点在更新前后的 raw visual feature 变化,用这个漂移量修正旧类原型。推理时融合 CLIP 跨模态 logits 和原型 visual logits
- 设计动机:CLIP 的模态间隙使得纯文本匹配不够,视觉原型提供互补信息
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{CE} + \lambda_A \mathcal{L}_{ACGD} + \lambda_T \mathcal{L}_{TSGR}\),使用 LoRA 微调 CLIP ViT-L/14,训练开销相比标准微调仅增加 <20%。
实验关键数据¶
主实验¶
| 数据集 | 指标(Last Acc) | SeGP-CL | 之前SOTA | 提升 |
|---|---|---|---|---|
| CIFAR100 | Last | 84.6 | 80.6 (MG-CLIP) | +4.0 |
| CUB-200 | Last | 80.1 | 76.2 (RAPF) | +3.9 |
| ImageNet-R | Last | 82.9 | 80.0 (CLAP) | +2.9 |
| Cars-196 | Last | 85.3 | 80.7 (CLAP) | +4.6 |
| OmniBenchmark | Last | 92.8 | 86.6 (ENGINE) | +6.2 |
消融实验¶
| 配置 | CIFAR100 Last | CUB-200 Last | 说明 |
|---|---|---|---|
| Naive LoRA | 70.5 | 66.3 | 基线,严重遗忘 |
| + ACGD | 78.9 | 75.2 | 锚点蒸馏贡献最大 |
| + ACGD + TSGR | 80.7 | 77.1 | 文本正则化进一步提升 |
| + PT + 双路径 | 84.6 | 80.1 | 完整模型 |
关键发现¶
- 几何漂移在语义边界的 JSD 比核心区域高数倍,验证了 boundary vulnerability 假设;具体而言,边界区域 JSD 约为核心区域的 3-5 倍
- 锚点蒸馏(ACGD)比在新数据或参考数据上蒸馏效果都好,因为精准覆盖了脆弱区域
- DPGD 双目标相比单文本目标 PGD 在 CUB-200 上提升约 1.5%,表明视觉约束对锚点质量至关重要
- SeGP-CL 在跨场景零样本评估(Food-101, Oxford-Pets, ImageNet-1K)上保持了原始 CLIP 的零样本能力,甚至略有提升
- 训练开销仅增加 <20%,推理几乎零额外开销(0.00013 GFLOPs)
- 在长序列(20 步增量)设定下,SeGP-CL 的性能衰减曲线明显比其他方法更平缓
亮点与洞察¶
- 对抗攻击的建设性使用:将对抗攻击从"攻击"转为"诊断工具",用 PGD 主动发现模型最脆弱的表示区域。这个思路可迁移到任何需要精准定位模型脆弱性的场景
- Boundary vulnerability 的实证发现:JSD 测量表明漂移集中在新旧语义边界而非均匀分布,这为持续学习中"保护什么"提供了明确指导
- 跨模态几何保护的泛化性:该框架的核心思路(对抗探测 + 锚点蒸馏)不局限于分类,也适用于 VLM 的其他下游任务如检索和 VQA
- 跨模态迁移鲁棒性:保护跨模态几何不仅帮助跨模态推理,还间接改善了纯视觉分支的持续适应,说明跨模态约束可以作为有效的正则化手段
局限性 / 可改进方向¶
- 锚点数量和 PGD 步数需要调参,且锚点构造需要额外计算(每步约 10 次前向传播)
- 只在 CLIP 上验证,未测试更新的 VLM(如 SigLIP、InternVL)
- 双目标 PGD 中文本/视觉目标的权重 \(\lambda_p\) 需要每个数据集调参,缺乏自适应策略
- TSGR 的关键关系子图基于固定阈值选边,可能遗漏低相似度但语义重要的关系
- 可以探索将 DPGD 扩展到生成式 VLM 的持续学习
相关工作与启发¶
- vs MG-CLIP: MG-CLIP 也关注模态间隙但用保守策略,本文主动用对抗锚点探测并保护脆弱区域,更有针对性
- vs ZSCL: ZSCL 需要参考数据集做蒸馏,本文用合成锚点替代,exemplar-free 且更精准
- vs ENGINE: ENGINE 用外部 LLM 获取文本语义,本文直接保护已有几何结构,不依赖外部资源
- vs RAPF: RAPF 用 prompt fusion 缓解遗忘,但缺乏对脆弱区域的针对性保护;SeGP-CL 在 fine-grained 数据集(CUB-200, Cars-196)上优势尤为明显
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 对抗锚点探测脆弱区域是非常巧妙的创新,理论动机清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 五个 benchmark + 详细消融 + 跨场景评估 + 计算开销分析
- 写作质量: ⭐⭐⭐⭐ IEEE 风格,公式推导完整,但篇幅较长
- 价值: ⭐⭐⭐⭐ 持续学习领域的实质推进,boundary vulnerability 这个发现有启发性