Enhanced Continual Learning of Vision-Language Models with Model Fusion¶

会议: ICLR 2026
arXiv: 2503.10705
代码: GitHub
领域: 多模态VLM
关键词: 持续学习, 模型融合, 灾难性遗忘, CLIP, 零样本能力保持

一句话总结¶

提出Continual Decoupling-Unifying（ConDU）框架，首次将模型融合引入VLM持续学习，通过维护统一模型并结合任务触发器进行解耦-统一迭代操作，在MTIL基准上平均性能超SOTA 2%，同时增强了零样本能力。

研究背景与动机¶

VLM（如CLIP）通过整合视觉和文本模态实现了出色的零样本能力。然而在多个下游任务上顺序微调时，VLM同样面临灾难性遗忘问题。现有VLM持续学习方法存在明显局限：

蒸馏方法（如ZSCL、Dual-RAIL）需要额外参考数据集进行知识蒸馏，性能对数据集选择敏感，且需要精心调节多个超参数来平衡遗忘缓解、零样本保持和当前任务优化
参数高效微调方法（如DPeCLIP、MulKI）仅适用于adapter或LoRA场景，无法处理全参数微调

核心insight: 如果允许为每个任务维护独立微调模型，已知任务ID时直接选用对应模型即可。关键思路是：将这些独立模型的共享部分提取并融合为一个统一VLM，任务特异性差异存储在有限内存中，从而用"一个主VLM+少量辅助内存"模拟多个专用模型的行为。模型融合（model fusion）天然适合这一场景——无需访问原始训练数据即可合并多个模型。

方法详解¶

整体框架¶

ConDU维护三个组件贯穿整个持续学习过程：统一模型、任务触发器集合、原型集合。每个新任务到来时执行三步：(1) 独立微调获得任务专家；(2) 通过任务触发器解耦统一模型获得历史任务专家；(3) 将所有任务专家统一为新的统一模型。解耦和统一操作无需训练，耗时仅为微调的约1%。

关键设计¶

Delta模型统一（Unifying）: 定义delta模型为任务专家与预训练模型的参数差 \(\delta^t = \theta^t - \theta^0\)。统一操作对每个参数维度选择所有delta模型中绝对值最大且与总和方向一致的值：若 \(\sum_i \delta^i_j > 0\) 则取 \(\max_i(\delta^i_j)\)，否则取 \(\min_i(\delta^i_j)\)。这保留了跨模型共享的最大幅度和一致方向信息。同时为每个任务计算二值掩码 \(M^i_j\)（标记该任务delta模型与统一delta模型在各位置是否同号）和缩放标量 \(\lambda^i\)（保持平均幅度一致）作为任务触发器。
Delta模型解耦（Decoupling）: 用任务触发器从统一delta模型重建各任务delta模型：\(\tilde{\delta}^i = \lambda^i \cdot M^i \odot \delta^{1:t}\)，再加上预训练模型得到任务专家 \(\tilde{\theta}^i = \theta^0 + \tilde{\delta}^i\)。这一过程在训练阶段（用于获取历史任务专家参与统一）和推理阶段都使用。
语义聚合推理机制: 对于未知任务ID或零样本场景，解耦所有任务专家。用预训练VLM提取测试样本图像特征，计算与各任务各类别原型的余弦相似度。每个任务取最高相似度作为该任务专家的权重，选择K个最高权重的专家，聚合其输出logits作为最终预测。原型定义为类别图像特征均值加文本特征：\(P^i_k = f(y, \theta^0) + \frac{1}{|\mathcal{D}^t_k|}\sum_m f(x_m, \theta^0)\)。

损失函数 / 训练策略¶

训练阶段仅标准微调（全参数或LoRA），无需额外蒸馏损失或参考数据集
解耦-统一操作完全无需训练
唯一超参数K（推理时选择的专家数量），消融显示性能对K非常不敏感

实验关键数据¶

主实验¶

MTIL基准（11个跨域任务）:

方法	Transfer↑	Average↑	Last↑
Zero-shot	65.3	65.3	65.3
ZSCL	68.1	75.4	83.6
Dual-RAIL	69.4	77.8	86.8
DPeCLIP	69.1	77.5	86.9
MulKI	70.1	77.3	-
ConDU (LoRA)	70.3	78.3	86.2
ConDU (FT)	70.8	78.8	87.1

Task-Agnostic MTIL（无任务ID）:

方法	Average↑	Last↑
最佳基线	76.1	84.6
ConDU (LoRA)	78.0	85.1
ConDU (FT)	78.1	86.4

消融实验¶

ConDU在全参数微调和LoRA两种场景下均有效，是唯一同时支持两种范式的方法
Few-shot MTIL（每类5样本）：Transfer 70.0%/70.3%(FT/LoRA)超最佳基线1.4%，Average 72.3%/72.7%超1.3%，Last 76.6%/77.4%超1.3%
推理时聚合权重的专家数K对性能非常不敏感（详见附录F）
解耦-统一操作的时间开销仅为微调时间的约1%
多个专家并行前向传播的推理时间接近单模型推理
统一操作中"选最大绝对值+一致方向"策略优于简单平均等基线融合策略

Few-shot MTIL对比:

方法	Transfer↑	Average↑	Last↑
最佳基线	68.6	71.4	76.1
ConDU (FT)	70.0	72.3	76.6
ConDU (LoRA)	70.3	72.7	77.4

关键发现¶

Transfer指标超预训练VLM 5.5%，说明持续学习过程反而增强了零样本能力
全参数微调版本（ConDU FT）通常优于LoRA版本，说明全参数微调在持续学习中仍有优势
模型融合中的"选最大绝对值+一致方向"策略在保留多任务知识方面效果显著

亮点与洞察¶

首次将模型融合引入VLM持续学习，开辟了一个新的研究方向
框架设计优雅：解耦-统一操作完全无需训练，任务触发器（掩码+缩放标量）存储开销极低
同时兼容全参数微调和参数高效微调，灵活性远超现有方法
零样本能力不仅不退化反而增强，这在持续学习中非常难得

局限性 / 可改进方向¶

任务触发器中的二值掩码与统一delta模型同维度，任务数增加时存储可能成为瓶颈
统一操作中"选最大绝对值"的策略是否最优有待更多理论分析
实验仅在CLIP架构上验证，更多VLM架构（如BLIP、LLaVA）的适用性待探索
语义聚合推理需要前向传播多个任务专家，任务数极多时推理成本增加

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将模型融合引入VLM持续学习，框架设计新颖
实验充分度: ⭐⭐⭐⭐ MTIL基准覆盖三种设定，但仅在CLIP上验证
写作质量: ⭐⭐⭐⭐ 框架图清晰，方法描述规范，数学符号统一
价值: ⭐⭐⭐⭐⭐ 开辟新方向，框架通用性强，无需额外数据和蒸馏设计，实用价值高