Continual Learning with Vision-Language Models via Semantic-Geometry Preservation¶

会议: CVPR 2026
arXiv: 2603.12055
代码: 待确认
领域: 持续学习 / 视觉语言模型 / 灾难性遗忘
关键词: 持续学习, VLM, 语义几何保留, 对抗锚点, 跨模态蒸馏

一句话总结¶

提出 SeGP-CL，通过对抗性 PGD 在旧新语义边界构造锚点样本，配合锚点引导的跨模态几何蒸馏（ACGD）和文本语义几何正则化（TSGR），在无需旧数据回放条件下保护 VLM 持续学习中的跨模态语义几何结构，五个基准上达到 SOTA。

背景与动机¶

VLM (如 CLIP) 的持续学习容易导致灾难性遗忘。作者发现关键洞察：遗忘造成的跨模态几何漂移并非均匀发生，而是集中在旧新语义交界处的"脆弱邻域"——那里共享的视觉模式最容易被新任务的文本语义重新解释。用 JSD 度量增量更新前后的跨模态分布偏移，发现边界区域的偏移显著大于核心区域。现有方法要么保守冻结（L2P, DualPrompt），要么用参考数据蒸馏但不够针对性。

核心问题¶

如何在无旧样本约束下精准定位并保护 VLM 持续学习中最脆弱的跨模态语义几何区域，同时维护文本语义的参考坐标系稳定性？

方法详解¶

整体框架¶

三阶段流程：(1) 训练前，用 DPGD 从新任务数据构造指向旧类语义的对抗锚点集；(2) 训练中，在新任务 CE 损失基础上加 ACGD 和 TSGR 保护旧几何；(3) 训练后，利用锚点估计视觉原型漂移并双路径推理。LoRA 仅微调上投影矩阵 B。

关键设计¶

双目标 PGD 锚点构造（DPGD）: 从新任务中选与旧类语义最相似的 \(K_{seed}=5\) 个种子，通过 \(K_{adv}=10\) 步 PGD 同时优化两个目标：(a) 跨模态目标——将扰动样本推向旧类文本嵌入；(b) 视觉锚定目标——保持与旧类视觉原型的raw空间一致性，弥补模态间隙
锚点引导跨模态几何蒸馏（ACGD）: 在锚点上对教师和学生的旧类分布进行 KL 蒸馏，温度 \(\tau_A=20\)（高温保留全局几何而非局部关系），权重 \(\lambda_{ACGD}=5\)
文本语义几何正则化（TSGR）: 冻结 LoRA 获得稳定文本参考坐标系，对每个新类构建 k=10 近邻子图，用 KL 散度约束学生文本空间的子图分布与教师一致，温度 \(\tau_T=0.05\)（低温保持紧凑局部关系），仅约束 \(|C_t|\) 个新类根节点，复杂度 \(O(|C_t|k)\)
锚点诱导原型迁移与双路径推理: 训练后用锚点在教师/学生上的特征差异估计旧类原型漂移方向，以相似度加权平均。推理时融合 CLIP 跨模态 logits 和原型视觉 logits：\(\ell(x,c) = s_{clip}(x,c) + \beta \cdot s_v(x,c)\)，\(\beta=0.5\)

损失函数 / 训练策略¶

\(\mathcal{L}_{CL} = \mathcal{L}_{cls} + \lambda_{ACGD} \mathcal{L}_{ACGD} + \lambda_{GR} \mathcal{L}_{GR}\)，其中 \(\lambda_{ACGD}=5, \lambda_{GR}=1\)。LoRA 插入 CLIP 视觉和文本编码器的注意力投影和 FFN 线性层。SGD + cosine 衰减，batch 128，lr 0.001，每任务 10 epochs，2× RTX 4090。

实验关键数据¶

数据集	指标	SeGP-CL	之前 SOTA	提升
CIFAR100 (10 tasks)	Last Acc	84.6	80.6 (MG-CLIP)	+4.0
ImageNet-R (10 tasks)	Last Acc	84.8	82.7 (MG-CLIP)	+2.1
ImageNet-Sub (10 tasks)	Last Acc	80.5	80.2 (RAPF)	+0.3
CUB-200 (10 tasks)	Last Acc	80.1	76.2 (RAPF)	+3.9
UCF101 (10 tasks)	Last Acc	92.8	90.1 (ENGINE)	+2.7

仅用 CLIP 分支（无视觉原型）的 SeGP-CL-onlyCLIP 仍超越大多数先前方法。

消融实验要点¶

ACGD 将 Last 从 77.0 提至 81.7，Forgetting 从 10.9 降至 5.8
TSGR 在 ACGD 基础上进一步提升至 82.8/4.7
锚点蒸馏显著优于在新数据上直接蒸馏（后者甚至有害，-0.8 Last），也优于参考数据蒸馏
\(K_{adv}=10\) 最优，过多迭代（\(K_{adv}=20\)）反而退化——保护脆弱邻域而非过度靠近旧原型
跨场景评估：完成 CIFAR100 持续学习后在 Food101/Oxford-Pets/ImageNet-1K 上零样本准确率接近原始 CLIP，证明保持了泛化能力

亮点¶

从对抗鲁棒性借鉴到持续学习的跨领域思路非常巧妙：利用 VLM 对小扰动敏感的特性，反过来构造暴露脆弱区域的锚点
无需任何旧数据或外部参考数据，纯粹依靠新任务数据的对抗扰动
双路径推理有效弥补了模态间隙——跨模态 + 视觉原型互补

局限性 / 可改进方向¶

仍需维护文本和视觉原型的轻量历史记忆，虽然开销小但并非完全无历史信息
依赖 prompt 模板质量，在严重 OOD 场景下可能受限
仅关注类增量学习，未扩展到跨域/跨任务持续学习

与相关工作的对比¶

vs ZSCL：后者用 CC12M 参考数据蒸馏，SeGP-CL 无需额外数据且更精准（+3.8 Last）
vs MG-CLIP：SeGP-CL 在前向迁移（FWT 72.3 vs 70.2）和遗忘（F 0.9 vs 4.9）上全面领先
vs ENGINE：后者引入外部语言专家的文本语义，而 SeGP-CL 自包含
vs GIFT：合成旧类图像的方法受限于域差距，在 CIFAR100 上仅+2.5 vs SeGP-CL 的+7.6

启发与关联¶

对抗锚点构造思路可推广到任何需要保护旧知识边界的增量学习场景
TSGR 的子图正则化方式轻量高效，值得在其他涉及语义空间保护的场景中借鉴

评分¶

新颖性: ⭐⭐⭐⭐ 对抗锚点探测脆弱边界+双路径推理，跨领域借鉴精巧
实验充分度: ⭐⭐⭐⭐⭐ 五个基准+蒸馏方案对比+跨场景鲁棒性+锚点分析+可视化
写作质量: ⭐⭐⭐⭐ 公式推导严谨，动机阐述充分
价值: ⭐⭐⭐⭐ 对 VLM 持续学习有实质性推进