Continual Learning with Vision-Language Models via Semantic-Geometry Preservation¶

会议: CVPR 2025
arXiv: 2603.12055
代码: 待确认
领域: 多模态VLM
关键词: continual learning, VLM, semantic geometry, adversarial anchor, knowledge distillation

一句话总结¶

提出 SeGP-CL 框架，通过对抗性锚点（DPGD）精准探测新旧任务语义边界的脆弱区域，结合跨模态几何蒸馏（ACGD）和文本语义正则化（TSGR）保护 VLM 的跨模态几何结构，在五个持续学习 benchmark 上达到 SOTA。

研究背景与动机¶

领域现状：VLM-based 持续学习方法包括 prompt-based（L2P, DualPrompt）、adapter-based（MoE-Adapter）和利用文本先验的方法（ENGINE, DesCLIP）。这些方法在减少遗忘方面取得了进展。
现有痛点：(1) 现有方法要么过于保守（冻结大量参数导致学不到新知识），要么更新时没有针对性地保护跨模态几何结构；(2) 需要旧数据的方法违反 exemplar-free 约束；(3) 基于参考数据的蒸馏方法缺乏对漂移敏感区域的针对性约束。
核心矛盾：几何漂移不是均匀发生的——它集中在新旧语义的交界区域（"boundary vulnerability"），那里的共享视觉模式容易被新任务的文本语义重新解释。但现有方法无法精确定位和保护这些脆弱区域。
本文要解决什么？ 如何在 exemplar-free 条件下精准保护 VLM 跨模态几何的脆弱区域？
切入角度：利用对抗攻击的思路——如果微小扰动能改变图像-文本对齐关系，那么同样的扰动可以用来主动发现和覆盖最脆弱的几何邻域。
核心idea一句话：用双目标 PGD 构造对抗锚点探测新旧语义边界，在锚点上做跨模态几何蒸馏保护脆弱区域。

方法详解¶

整体框架¶

三阶段：(1) 训练前：DPGD 构造对抗锚点集 \(\mathcal{A}_t\)；(2) 训练中：CE 损失学新任务 + ACGD 在锚点上蒸馏旧知识 + TSGR 正则化文本语义；(3) 训练后：锚点诱导的原型迁移 + 双路径推理（CLIP 分支 + 视觉原型分支融合）。

关键设计¶

Dual-Targeted PGD (DPGD) 锚点构造:
做什么：构造落在新旧语义边界脆弱区域的对抗样本
核心思路：选择与旧类文本原型相似度最高的 \(K_{seed}\) 个新任务样本作为种子，通过 PGD 优化双目标 \(\mathcal{L}_{adv}' = \mathcal{L}_{adv} + \lambda_p \mathcal{L}_{v\text{-}adv}\)：文本目标将样本推向旧类文本嵌入，视觉目标将样本拉向旧类视觉原型。迭代 \(\delta^{(k+1)} = \Pi(\delta^{(k)} - \gamma \text{sign}(\nabla_\delta \mathcal{L}_{adv}'))\)
设计动机：纯文本目标的攻击因模态间隙可能产生视觉不合理的锚点；双目标使锚点同时在文本语义和视觉空间中落入旧类区域
Anchor-guided Cross-modal Geometry Distillation (ACGD):
做什么：在锚点上蒸馏旧模型的跨模态相似度分布
核心思路：对每个锚点，计算 teacher 和 student 对所有旧类的跨模态相似度分布，用 KL 散度约束学生不偏离：\(\mathcal{L}_{ACGD} = D_{KL}(p^T_{clip} \| p^S_{clip})\)
设计动机：比在全部新数据上蒸馏更精准（Fig.2b 实验验证），因为锚点专门覆盖漂移最严重的区域
Text Semantic-Geometry Regularization (TSGR):
做什么：保持文本嵌入间的相对几何关系稳定
核心思路：构建关键关系子图（基于文本嵌入间相似度选取重要边），约束子图中每条边的相似度在更新前后保持一致
设计动机：跨模态对齐不仅取决于图像-文本关系，还取决于文本概念间的相对位置。如果文本参考系漂移，旧类语义坐标会被隐式重参数化
锚点诱导原型迁移 + 双路径推理:
做什么：训练后利用锚点估计视觉空间漂移，迁移旧类原型
核心思路：测量锚点在更新前后的 raw visual feature 变化，用这个漂移量修正旧类原型。推理时融合 CLIP 跨模态 logits 和原型 visual logits
设计动机：CLIP 的模态间隙使得纯文本匹配不够，视觉原型提供互补信息

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{CE} + \lambda_A \mathcal{L}_{ACGD} + \lambda_T \mathcal{L}_{TSGR}\)，使用 LoRA 微调 CLIP ViT-L/14，训练开销相比标准微调仅增加 <20%。

实验关键数据¶

主实验¶

数据集	指标(Last Acc)	SeGP-CL	之前SOTA	提升
CIFAR100	Last	84.6	80.6 (MG-CLIP)	+4.0
CUB-200	Last	80.1	76.2 (RAPF)	+3.9
ImageNet-R	Last	82.9	80.0 (CLAP)	+2.9
Cars-196	Last	85.3	80.7 (CLAP)	+4.6
OmniBenchmark	Last	92.8	86.6 (ENGINE)	+6.2

消融实验¶

配置	CIFAR100 Last	CUB-200 Last	说明
Naive LoRA	70.5	66.3	基线，严重遗忘
+ ACGD	78.9	75.2	锚点蒸馏贡献最大
+ ACGD + TSGR	80.7	77.1	文本正则化进一步提升
+ PT + 双路径	84.6	80.1	完整模型

关键发现¶

几何漂移在语义边界的 JSD 比核心区域高数倍，验证了 boundary vulnerability 假设；具体而言，边界区域 JSD 约为核心区域的 3-5 倍
锚点蒸馏（ACGD）比在新数据或参考数据上蒸馏效果都好，因为精准覆盖了脆弱区域
DPGD 双目标相比单文本目标 PGD 在 CUB-200 上提升约 1.5%，表明视觉约束对锚点质量至关重要
SeGP-CL 在跨场景零样本评估（Food-101, Oxford-Pets, ImageNet-1K）上保持了原始 CLIP 的零样本能力，甚至略有提升
训练开销仅增加 <20%，推理几乎零额外开销（0.00013 GFLOPs）
在长序列（20 步增量）设定下，SeGP-CL 的性能衰减曲线明显比其他方法更平缓

亮点与洞察¶

对抗攻击的建设性使用：将对抗攻击从"攻击"转为"诊断工具"，用 PGD 主动发现模型最脆弱的表示区域。这个思路可迁移到任何需要精准定位模型脆弱性的场景
Boundary vulnerability 的实证发现：JSD 测量表明漂移集中在新旧语义边界而非均匀分布，这为持续学习中"保护什么"提供了明确指导
跨模态几何保护的泛化性：该框架的核心思路（对抗探测 + 锚点蒸馏）不局限于分类，也适用于 VLM 的其他下游任务如检索和 VQA
跨模态迁移鲁棒性：保护跨模态几何不仅帮助跨模态推理，还间接改善了纯视觉分支的持续适应，说明跨模态约束可以作为有效的正则化手段

局限性 / 可改进方向¶

锚点数量和 PGD 步数需要调参，且锚点构造需要额外计算（每步约 10 次前向传播）
只在 CLIP 上验证，未测试更新的 VLM（如 SigLIP、InternVL）
双目标 PGD 中文本/视觉目标的权重 \(\lambda_p\) 需要每个数据集调参，缺乏自适应策略
TSGR 的关键关系子图基于固定阈值选边，可能遗漏低相似度但语义重要的关系
可以探索将 DPGD 扩展到生成式 VLM 的持续学习

评分¶

新颖性: ⭐⭐⭐⭐⭐ 对抗锚点探测脆弱区域是非常巧妙的创新，理论动机清晰
实验充分度: ⭐⭐⭐⭐⭐ 五个 benchmark + 详细消融 + 跨场景评估 + 计算开销分析
写作质量: ⭐⭐⭐⭐ IEEE 风格，公式推导完整，但篇幅较长
价值: ⭐⭐⭐⭐ 持续学习领域的实质推进，boundary vulnerability 这个发现有启发性