Continual Learning with Vision-Language Models via Semantic-Geometry Preservation¶
会议: CVPR2026 arXiv: 2603.12055 代码: 待确认 领域: multimodal_vlm 关键词: 持续学习, 视觉语言模型, 语义几何保持, 对抗锚点, 跨模态蒸馏, CLIP, 无样本回放
一句话总结¶
提出 SeGP-CL,通过对抗锚点探测旧-新语义边界的脆弱区域,结合锚点引导的跨模态几何蒸馏(ACGD)和文本语义几何正则化(TSGR),在无样本回放条件下有效保持 VLM 的跨模态语义几何结构,显著缓解灾难性遗忘。
研究背景与动机¶
-
VLM 持续学习的核心挑战:预训练视觉语言模型(如 CLIP)在持续学习中面临灾难性遗忘,现有方法在适配新任务时没有显式保持跨模态语义几何结构,导致新任务监督信号引发几何畸变。
-
语义边界处的脆弱性:作者关键观察——有害的表征漂移并非均匀分布在嵌入空间中,而是集中在旧-新语义交界处。在这些区域,新样本与旧类共享视觉模式,容易被新文本语义"重新解释",从而破坏已建立的视觉-文本对齐。
-
现有方法的不足:冻结骨架+任务特异组件的保守策略(L2P、DualPrompt、PROOF 等)过度隔离知识、限制正向迁移;参数高效适配方法(LoRA/Adapter)缺乏对跨模态稳定性的针对性建模;利用文本先验的方法(DesCLIP、CLG-CBM)仍未充分关注无样本条件下的跨模态几何保持。
-
参考数据方案的局限:一些方法(ZSCL、DualTeacher)使用额外参考数据集来稳定几何结构,但引入非平凡的数据开销,且约束不够精准——无法集中约束最容易发生畸变的边界区域。
-
模态间隙问题:VLM 中视觉和文本嵌入空间并非完美对应(modality gap),仅依赖文本语义无法完全表征视觉空间,需要结合原始视觉线索进行互补推理。
-
对抗攻击的建设性利用:VLM 对微小扰动敏感,可被建设性地利用——通过对抗扰动暴露和覆盖旧几何结构中最脆弱的邻域,为无样本条件下的几何保持提供高效探测手段。
方法详解¶
整体框架(SeGP-CL)¶
SeGP-CL 是一个分三阶段的无样本持续学习框架:
- 训练前:冻结教师快照 \((F^T, G^T)\),通过双目标投影梯度下降(DPGD)从新任务数据中构建一组对抗锚点 \(\mathcal{A}_t\),探测旧-新语义边界的脆弱区域
- 训练中:用新任务数据优化交叉熵损失,同时在锚点上执行 ACGD 蒸馏保持跨模态结构,并用 TSGR 稳定文本语义参考框架
- 训练后:利用锚点估计原始视觉空间中的漂移,迁移旧类视觉原型,并通过双路径推理融合跨模态与视觉线索
关键设计 1:双目标投影梯度下降(DPGD)构建对抗锚点¶
核心思想是从新任务数据中选取与旧类语义亲和度最高的种子样本,通过对抗扰动将其推向旧类语义区域:
- 种子选择:对每个旧类 \(c\),按教师模型的跨模态相似度 \(Q(x, c) = \bar{v}^T(x)^\top u_c^T\) 排序,取 top-\(K_{\text{seed}}\) 个新任务样本作为种子
- 双目标优化:文本目标将扰动样本推向旧类文本嵌入(\(\mathcal{L}_{\text{adv}}\)),视觉目标将其拉向旧类原始视觉原型(\(\mathcal{L}_{\text{v-adv}}\)),修正模态间隙带来的不稳定性
- PGD 迭代:在 \(\ell_\infty\) 约束下运行 \(K_{\text{adv}}=10\) 次符号梯度迭代,步长 \(\gamma = 1.5 \times 10^{-3}\)
关键设计 2:锚点引导的跨模态几何蒸馏(ACGD)¶
在对抗锚点上对齐教师与学生的旧类概率分布,约束脆弱边界区域的跨模态结构:
其中 \(\tau_A = 20\) 为蒸馏温度,教师/学生分布均在旧类集合 \(\mathcal{C}_{<t}\) 上计算。
关键设计 3:文本语义几何正则化(TSGR)¶
文本概念间的相对几何结构若在任务间漂移,会隐式重参数化旧类语义。TSGR 通过 \(k\)-NN 子图匹配约束新类的文本邻域结构:
- 用 LoRA 重置后的预训练文本编码器 \(G^0\) 构建参考子图
- 对每个新类 \(c \in \mathcal{C}_t\),找其 \(k=10\) 个最近邻,匹配教师与学生的子图邻
- 仅约束新类根的子图,复杂度 \(\mathcal{O}(|\mathcal{C}_t| \cdot k)\),远低于全局约束
关键设计 4:锚点驱动的原型迁移与双路径推理¶
- 原型迁移:利用锚点在训练前后的原始视觉特征位移 \(d_t(x^{adv})\),加权估计每个旧类的漂移方向 \(\Delta_{t,c}\),并按锚点-原型接近度调制幅度,迁移旧类原型
- 双路径推理:融合 CLIP 跨模态分数与视觉原型分数:\(\ell_t(x, c) = s_t^{\text{clip}}(x, c) + \beta \cdot s_t^v(x, c)\),\(\beta=0.5\)
总损失函数¶
其中 \(\lambda_{\text{ACGD}}=5\), \(\lambda_{\text{GR}}=1\),仅更新 LoRA 的上投影矩阵 B。
实验¶
主实验:五大基准 SOTA 对比(CLIP ViT-B/16)¶
| 方法 | CIFAR100 Avg/Last | ImageNet-R Avg/Last | ImageNet-Sub Avg/Last | CUB-200 Avg/Last | UCF Avg/Last |
|---|---|---|---|---|---|
| MG-CLIP (ICCV'25) | 87.0/80.6 | 87.6/82.7 | 87.3/78.4 | 80.6/72.0 | – |
| RAPF (ECCV'24) | 86.2/79.0 | 85.6/80.3 | 87.5/80.2 | 82.7/76.2 | 92.5/87.5 |
| ENGINE (ICCV'25) | 82.1/73.1 | 84.4/77.0 | – | 83.9/76.2 | 95.0/90.1 |
| SeGP-CL (Ours) | 89.8/84.6 | 88.9/84.8 | 89.9/80.5 | 85.4/80.1 | 95.9/92.8 |
SeGP-CL 在全部五个基准上取得 SOTA,CIFAR100 Last 较 MG-CLIP 提升 +4.0,CUB-200 Last 较 RAPF 提升 +3.9。
迁移与遗忘指标(仅 CLIP 分支,CIFAR100)¶
| 方法 | FWT ↑ | BWT ↑ | Forgetting ↓ |
|---|---|---|---|
| MG-CLIP | 70.2 | -3.9 | 4.9 |
| DesCLIP | 68.7 | -2.1 | 6.5 |
| SeGP-CL | 72.3 | -0.43 | 0.9 |
SeGP-CL 的 Forgetting 仅 0.9,远低于 MG-CLIP 的 4.9,BWT 接近零(-0.43),表明几乎无后向遗忘。
消融实验¶
| ACGD | TSGR | 原型迁移 | 视觉分支 | CIFAR100 Last | Forgetting ↓ |
|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | ✗ | 77.0 | 10.9 |
| ✓ | ✗ | ✗ | ✗ | 81.7 | 5.8 |
| ✓ | ✓ | ✗ | ✗ | 82.8 | 4.7 |
| ✓ | ✓ | ✓ | ✗ | 83.2 | 4.3 |
| ✓ | ✓ | ✓ | ✓ | 84.6 | 4.5 |
ACGD 贡献最大(Last +4.7, Forgetting -5.1),TSGR、原型迁移、视觉分支逐步提升。
关键发现¶
- 对抗锚点 vs 其他蒸馏数据源:锚点蒸馏(+5.8 Last)远超参考数据(ZSCL +1.9)、合成数据(GIFT +2.7)和新任务数据(-0.5)
- 跨场景泛化:在 CIFAR100 上训练后,仍在 Food101/Oxford-Pets/ImageNet-1K 上保持接近 zero-shot 的泛化能力(TSGR 功不可没)
- 参数效率:LoRA rank=32 下仅 3.44M 可训练参数(vs MoE-Adapter 13.35M),每迭代额外开销仅 ~79ms
- DPGD 迭代次数:10 次迭代即可稳定收敛,文本目标收敛慢于视觉目标(印证模态间隙)
亮点¶
- 问题定位精准:首次系统揭示 VLM 持续学习中跨模态几何畸变集中于旧-新语义边界的现象,并以 JSD 度量提供实证
- 对抗攻击的建设性利用:巧妙将 VLM 的对抗脆弱性转化为定位脆弱区域的手段,无需存储旧数据即可探测边界邻域
- 双目标设计解决模态间隙:DPGD 的视觉锚定项补偿模态间隙,避免纯文本目标产生不稳定锚点
- 轻量且高效:TSGR 仅约束新类的 \(k\)-NN 子图,参数开销小,每迭代额外时间可控
- 理论与实验统一:从对抗优化的一阶最优性到实验中五个基准全面 SOTA,论证逻辑完整
局限性¶
- 对抗锚点的质量依赖 \(\ell_\infty\) 预算和迭代次数等超参数,不同数据集可能需要调优
- TSGR 仅约束新类的文本邻域子图,若旧类间的文本关系发生漂移则无法检测
- 原型迁移假设锚点的特征漂移可作为旧类漂移的可靠代理,当新旧类语义差异过大时假设可能不成立
- 仅在 CLIP ViT-B/16 上验证,未测试更大规模 backbone(如 ViT-L)或其他 VLM(如 SigLIP、EVA-CLIP)
- 双路径推理的融合系数 \(\beta\) 固定,未探索自适应融合策略
相关工作¶
- VLM 持续学习:与 MG-CLIP(保持模态间隙)、ZSCL/DualTeacher(参考数据蒸馏)、ENGINE/RAPF(任务特异组件)形成对比,SeGP-CL 无需额外数据且精准约束脆弱区域
- 跨模态蒸馏:SGCL 在新任务数据上蒸馏语义伪标签参考分布,但不如对抗锚点精准
- 合成数据:GIFT 用 Stable Diffusion 合成旧类图像进行蒸馏,但域差距限制效果
- 对抗鲁棒性:利用 PGD 攻击框架,但目标从"攻击"转为"探测脆弱邻域"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 对抗锚点探测语义边界的思路非常新颖,将攻击转化为防御工具
- 实验充分度: ⭐⭐⭐⭐⭐ — 五个基准全面 SOTA,包含详尽的蒸馏方案对比、消融、泛化分析
- 写作质量: ⭐⭐⭐⭐ — 公式推导严谨,但符号较多,阅读门槛偏高
- 价值: ⭐⭐⭐⭐⭐ — 为 VLM 持续学习提供了新的几何保持范式,无样本回放条件下大幅超越前作