Enhanced Continual Learning of Vision-Language Models with Model Fusion¶
会议: ICLR 2026
arXiv: 2503.10705
代码: GitHub
领域: 多模态VLM
关键词: 持续学习, 模型融合, 灾难性遗忘, CLIP, 零样本能力保持
一句话总结¶
提出Continual Decoupling-Unifying(ConDU)框架,首次将模型融合引入VLM持续学习,通过维护统一模型并结合任务触发器进行解耦-统一迭代操作,在MTIL基准上平均性能超SOTA 2%,同时增强了零样本能力。
研究背景与动机¶
VLM(如CLIP)通过整合视觉和文本模态实现了出色的零样本能力。然而在多个下游任务上顺序微调时,VLM同样面临灾难性遗忘问题。现有VLM持续学习方法存在明显局限:
- 蒸馏方法(如ZSCL、Dual-RAIL)需要额外参考数据集进行知识蒸馏,性能对数据集选择敏感,且需要精心调节多个超参数来平衡遗忘缓解、零样本保持和当前任务优化
- 参数高效微调方法(如DPeCLIP、MulKI)仅适用于adapter或LoRA场景,无法处理全参数微调
核心insight: 如果允许为每个任务维护独立微调模型,已知任务ID时直接选用对应模型即可。关键思路是:将这些独立模型的共享部分提取并融合为一个统一VLM,任务特异性差异存储在有限内存中,从而用"一个主VLM+少量辅助内存"模拟多个专用模型的行为。模型融合(model fusion)天然适合这一场景——无需访问原始训练数据即可合并多个模型。
方法详解¶
整体框架¶
ConDU维护三个组件贯穿整个持续学习过程:统一模型、任务触发器集合、原型集合。每个新任务到来时执行三步:(1) 独立微调获得任务专家;(2) 通过任务触发器解耦统一模型获得历史任务专家;(3) 将所有任务专家统一为新的统一模型。解耦和统一操作无需训练,耗时仅为微调的约1%。
关键设计¶
-
Delta模型统一(Unifying): 定义delta模型为任务专家与预训练模型的参数差 \(\delta^t = \theta^t - \theta^0\)。统一操作对每个参数维度选择所有delta模型中绝对值最大且与总和方向一致的值:若 \(\sum_i \delta^i_j > 0\) 则取 \(\max_i(\delta^i_j)\),否则取 \(\min_i(\delta^i_j)\)。这保留了跨模型共享的最大幅度和一致方向信息。同时为每个任务计算二值掩码 \(M^i_j\)(标记该任务delta模型与统一delta模型在各位置是否同号)和缩放标量 \(\lambda^i\)(保持平均幅度一致)作为任务触发器。
-
Delta模型解耦(Decoupling): 用任务触发器从统一delta模型重建各任务delta模型:\(\tilde{\delta}^i = \lambda^i \cdot M^i \odot \delta^{1:t}\),再加上预训练模型得到任务专家 \(\tilde{\theta}^i = \theta^0 + \tilde{\delta}^i\)。这一过程在训练阶段(用于获取历史任务专家参与统一)和推理阶段都使用。
-
语义聚合推理机制: 对于未知任务ID或零样本场景,解耦所有任务专家。用预训练VLM提取测试样本图像特征,计算与各任务各类别原型的余弦相似度。每个任务取最高相似度作为该任务专家的权重,选择K个最高权重的专家,聚合其输出logits作为最终预测。原型定义为类别图像特征均值加文本特征:\(P^i_k = f(y, \theta^0) + \frac{1}{|\mathcal{D}^t_k|}\sum_m f(x_m, \theta^0)\)。
损失函数 / 训练策略¶
- 训练阶段仅标准微调(全参数或LoRA),无需额外蒸馏损失或参考数据集
- 解耦-统一操作完全无需训练
- 唯一超参数K(推理时选择的专家数量),消融显示性能对K非常不敏感
实验关键数据¶
主实验¶
MTIL基准(11个跨域任务):
| 方法 | Transfer↑ | Average↑ | Last↑ |
|---|---|---|---|
| Zero-shot | 65.3 | 65.3 | 65.3 |
| ZSCL | 68.1 | 75.4 | 83.6 |
| Dual-RAIL | 69.4 | 77.8 | 86.8 |
| DPeCLIP | 69.1 | 77.5 | 86.9 |
| MulKI | 70.1 | 77.3 | - |
| ConDU (LoRA) | 70.3 | 78.3 | 86.2 |
| ConDU (FT) | 70.8 | 78.8 | 87.1 |
Task-Agnostic MTIL(无任务ID):
| 方法 | Average↑ | Last↑ |
|---|---|---|
| 最佳基线 | 76.1 | 84.6 |
| ConDU (LoRA) | 78.0 | 85.1 |
| ConDU (FT) | 78.1 | 86.4 |
消融实验¶
- ConDU在全参数微调和LoRA两种场景下均有效,是唯一同时支持两种范式的方法
- Few-shot MTIL(每类5样本):Transfer 70.0%/70.3%(FT/LoRA)超最佳基线1.4%,Average 72.3%/72.7%超1.3%,Last 76.6%/77.4%超1.3%
- 推理时聚合权重的专家数K对性能非常不敏感(详见附录F)
- 解耦-统一操作的时间开销仅为微调时间的约1%
- 多个专家并行前向传播的推理时间接近单模型推理
- 统一操作中"选最大绝对值+一致方向"策略优于简单平均等基线融合策略
Few-shot MTIL对比:
| 方法 | Transfer↑ | Average↑ | Last↑ |
|---|---|---|---|
| 最佳基线 | 68.6 | 71.4 | 76.1 |
| ConDU (FT) | 70.0 | 72.3 | 76.6 |
| ConDU (LoRA) | 70.3 | 72.7 | 77.4 |
关键发现¶
- Transfer指标超预训练VLM 5.5%,说明持续学习过程反而增强了零样本能力
- 全参数微调版本(ConDU FT)通常优于LoRA版本,说明全参数微调在持续学习中仍有优势
- 模型融合中的"选最大绝对值+一致方向"策略在保留多任务知识方面效果显著
亮点与洞察¶
- 首次将模型融合引入VLM持续学习,开辟了一个新的研究方向
- 框架设计优雅:解耦-统一操作完全无需训练,任务触发器(掩码+缩放标量)存储开销极低
- 同时兼容全参数微调和参数高效微调,灵活性远超现有方法
- 零样本能力不仅不退化反而增强,这在持续学习中非常难得
局限性 / 可改进方向¶
- 任务触发器中的二值掩码与统一delta模型同维度,任务数增加时存储可能成为瓶颈
- 统一操作中"选最大绝对值"的策略是否最优有待更多理论分析
- 实验仅在CLIP架构上验证,更多VLM架构(如BLIP、LLaVA)的适用性待探索
- 语义聚合推理需要前向传播多个任务专家,任务数极多时推理成本增加
相关工作与启发¶
- 与Task Arithmetic的关系: ConDU的统一操作受TIES Merging启发,但针对持续学习场景设计了解耦机制
- 与ZSCL/Dual-RAIL对比: 这些方法需要参考数据集和蒸馏,ConDU完全不需要
- 启发: 模型融合视角为持续学习提供了新的思路——不再是"如何防止遗忘",而是"如何高效存储和重建多个专家"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将模型融合引入VLM持续学习,框架设计新颖
- 实验充分度: ⭐⭐⭐⭐ MTIL基准覆盖三种设定,但仅在CLIP上验证
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,方法描述规范,数学符号统一
- 价值: ⭐⭐⭐⭐⭐ 开辟新方向,框架通用性强,无需额外数据和蒸馏设计,实用价值高