BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning¶
会议: AAAI 2026
arXiv: 2511.11421
代码: 未公开
领域: 多模态VLM
关键词: 类增量学习, CLIP, 正交低秩融合, 跨模态原型, 灾难性遗忘
一句话总结¶
提出BOFA框架,仅微调CLIP已有的跨模态投影层(bridge-layer),通过正交低秩融合(Orthogonal Low-Rank Fusion)将参数更新约束在与旧任务特征正交的低秩"安全子空间"中,配合跨模态混合原型分类器,在不增加任何额外参数和推理开销的前提下实现了SOTA的无样本存储类增量学习。
背景与动机¶
类增量学习(CIL)要求模型在不遗忘旧知识的情况下持续学习新类别。CLIP等视觉-语言模型凭借跨模态表征为CIL提供了强大基础,当前主流做法是冻结CLIP主干、额外引入轻量可训练模块(adapter/prompt)。但这一策略存在三个问题:
- 遗忘转移而非消除:adapter本身在多任务序列训练中仍会覆盖旧知识,灾难性遗忘只是从主干转移到了adapter
- 额外参数和推理开销:轻量模块虽小,但仍增加了模型参数量和推理延迟
- 文本原型局限:依赖手工prompt的文本原型(如 "a photo of a [CLASS]")缺乏细粒度区分力,限制了分类性能
核心问题¶
如何在不引入任何额外参数的前提下,对CLIP进行增量适应并有效防止灾难性遗忘? 同时,如何更好地融合视觉和文本模态信息以提升分类精度?
方法详解¶
整体框架¶
BOFA包含三个协同组件:
-
仅微调跨模态Bridge-Layer:CLIP的图像编码器结构为 \(g_i = g_2 \circ g_1\),其中 \(g_1\) 是ViT主干提取 \(d_o\) 维视觉特征 \(\mathbf{x}_o\),\(g_2\) 是线性投影层(权重 \(\mathbf{W} \in \mathbb{R}^{d_o \times d}\))将其映射到共享嵌入空间。BOFA冻结 \(g_1\) 和文本编码器 \(g_t\),仅微调这个已有的投影层 \(g_2\),不引入任何外部模块,保持原始CLIP架构和推理开销不变。
-
正交低秩融合(Orthogonal Low-Rank Fusion):将参数更新约束在旧任务特征的近似零空间中,防止遗忘。
-
跨模态混合原型(Cross-Modal Hybrid Prototypes):融合文本原型与视觉原型,增强分类能力。
关键设计¶
正交安全子空间(Orthogonal Safe Subspace, OSS)¶
问题形式化:学习新任务的参数更新 \(\Delta\mathbf{W}_{new}\) 后,旧任务特征的嵌入从 \(\mathbf{X}_{old}\mathbf{W}_{old}\) 变为 \(\mathbf{X}_{old}(\mathbf{W}_{old} + \Delta\mathbf{W}_{new})\),干扰项 \(\mathbf{X}_{old}\Delta\mathbf{W}_{new}\) 是遗忘的主要来源。理想情况需要 \(\mathbf{X}_{old}\Delta\mathbf{W}_{new} \approx \mathbf{0}\)。
近似零空间构造:由于高维特征矩阵通常满秩,精确零空间不存在。因此作者定义近似零空间——投影旧特征幅度最小的子空间。具体通过最小化干扰度量:
Proposition 1:最优解 \(\mathbf{P}^*\) 由旧特征累积散布矩阵 \(\mathbf{S}_{old} = \mathbf{X}_{old}^\top\mathbf{X}_{old}\) 最小的 \(k\) 个特征值对应的特征向量张成。
增量更新:散布矩阵可增量累积 \(\mathbf{S}_{new} = \mathbf{S}_{old} + \mathbf{X}_{new}^\top\mathbf{X}_{new}\),无需存储历史数据。
LoRA在正交安全子空间中的实现¶
将参数更新分解为 \(\Delta\mathbf{W} = \mathbf{A}\mathbf{B}\)(LoRA形式),但固定 \(\mathbf{A} = \mathbf{P}^*\)(OSS基),只训练 \(\mathbf{B} \in \mathbb{R}^{k \times d}\)。这保证了更新的行空间严格位于安全子空间内。
数据驱动初始化:由于 \(\mathbf{A}\) 冻结,零初始化 \(\mathbf{B}\) 会导致优化困难。因此先对bridge-layer全量微调得到"oracle"更新 \(\Delta\tilde{\mathbf{W}}_{new}\),再用闭式解初始化:\(\mathbf{B}_0 = \mathbf{P}^{*\top}\Delta\tilde{\mathbf{W}}_{new}\),作为安全且任务自适应的起点。
跨模态混合原型¶
静态混合:对每个类 \(c\),将文本原型 \(\mathbf{z}_t^c\) 与视觉原型 \(\mathbf{z}_i^c\) 线性插值:\(\mathbf{p}_c = (1-\lambda)\mathbf{z}_t^c + \lambda\mathbf{z}_i^c\),\(\lambda\) 通过第一个任务的网格搜索确定后固定。
动态精炼:训练过程中用EMA持续更新每个已见类的视觉原型,适应bridge-layer特征空间的漂移。整个增量序列结束后,用最终融合权重 \(\mathbf{W}_{fused}\) 重算所有视觉原型。
层次推理:两阶段分类——先用轻量的任务级辅助分类器(在高维特征 \(\mathbf{x}_o\) 上训练)预筛候选类集,再在缩小的候选集上用混合原型做精细分类。
损失函数 / 训练策略¶
- 训练使用标准交叉熵损失,基于CLIP的余弦相似度分类概率(Eq. 1)
- 学习率从0.05出发,余弦退火衰减
- 每个新任务到来时:(1) 用旧任务散布矩阵最小特征值构造OSS;(2) 先全量微调bridge-layer得到oracle更新用于初始化;(3) 冻结 \(\mathbf{A}=\mathbf{P}^*\),只训练 \(\mathbf{B}\);(4) 融合后更新散布矩阵和原型
实验关键数据¶
在9个基准数据集上评估,采用B-m Inc-n协议,CLIP ViT-B/16 (LAION-400M) 作为backbone,RTX 4090 GPU。
Table 1 主要结果(\(\bar{\mathcal{A}}\) / \(\mathcal{A}_B\),平均准确率/最终准确率):
| 数据集 | BOFA | RAPF | SimpleCIL | PROOF(exemplar) |
|---|---|---|---|---|
| Aircraft B0 Inc10 | 69.94 / 59.67 | 50.38 / 23.61 | 59.24 / 48.09 | - |
| CIFAR100 B0 Inc10 | 86.50 / 79.34 | 86.14 / 78.04 | 84.15 / 76.63 | - |
| Cars B0 Inc10 | 93.77 / 89.23 | 82.89 / 62.85 | 92.04 / 86.85 | - |
| ImageNet-R B0 Inc20 | 85.42 / 79.62 | 81.26 / 70.48 | 81.06 / 74.48 | - |
| CUB200 B0 Inc20 | 86.09 / 79.10 | 79.09 / 62.77 | 83.81 / 77.52 | - |
| UCF101 B0 Inc10 | 93.22 / 88.08 | 92.28 / 80.33 | 90.44 / 85.68 | - |
| SUN397 B0 Inc30 | 85.62 / 78.87 | 82.13 / 72.47 | 82.13 / 75.58 | - |
| Food101 B0 Inc10 | 89.01 / 82.74 | 88.57 / 81.15 | 87.89 / 81.65 | - |
| ObjectNet B0 Inc20 | 58.04 / 45.14 | 48.67 / 27.43 | 52.06 / 40.13 | - |
BOFA在所有9个数据集上均取得最佳,在Aircraft上 \(\bar{\mathcal{A}}\) 超过RAPF 19.56%,在ObjectNet上超过RAPF 9.37%,在Cars上超过RAPF 10.88%。
Table 2 vs 有样本存储的方法(每类保留10个样本):
| 方法 | 7个数据集平均 \(\bar{\mathcal{A}}\) |
|---|---|
| BOFA (无样本) | 78.87 |
| PROOF (有样本) | 74.66 |
| MEMO (有样本) | 66.00 |
| iCaRL (有样本) | 66.17 |
BOFA在不使用任何历史样本的情况下仍超过存储10个样本/类的PROOF 4.21%。
消融实验要点¶
- 正交低秩融合消融(Figure 3):仅微调bridge-layer(FT)> 标准LoRA,说明简单低秩约束既不够自适应也不防遗忘;RAPF(适配到bridge-layer)也不如BOFA;BOFA同时具备FT的自适应力和正交约束的稳定性
- t-SNE可视化(Figure 4,CIFAR100 B0 Inc5):无融合时旧类特征高度纠缠,应用正交低秩融合后新旧类特征分离更清晰,与原型对齐更好
亮点¶
- 零额外参数设计:利用CLIP已有的投影层而非引入adapter,真正做到无参数增长和无推理开销增加
- 理论清晰的反遗忘机制:正交安全子空间有严格的数学定义(Proposition 1),将更新约束在旧特征散布矩阵最小特征值方向,直觉和理论都很优雅
- 散布矩阵增量式维护:\(\mathbf{S}_{new} = \mathbf{S}_{old} + \mathbf{X}_{new}^\top\mathbf{X}_{new}\),无需存储历史数据,完全符合exemplar-free设定
- 数据驱动的LoRA初始化:先全量微调再投影到安全子空间的两步法,兼顾了可塑性和稳定性
- 在所有9个数据集上全面SOTA,甚至超过使用样本存储的方法
局限性¶
- 散布矩阵存储:需要维护 \(d_o \times d_o\) 的散布矩阵(ViT-B/16时 \(d_o=768\),即约2.4MB),以及每个类的均值特征和辅助分类器,虽然作者声称比RAPF的per-class协方差矩阵更高效,但随任务数增多仍有累积
- 层次推理增加复杂度:两阶段分类需要额外的任务级辅助分类器,虽然只在高维特征上,但其数量随任务数线性增长
- 安全子空间的"近似"性:正交子空间只能近似而非精确消除干扰,当秩 \(k\) 选择不当或任务数很多时,可用的"安全方向"可能会耗尽
- 仅适用于CLIP架构:方法依赖于CLIP特有的bridge-layer结构,对于其他VLM或不同架构的推广未做讨论
- 超参敏感性:\(k\)(低秩维度)和 \(\lambda\)(模态混合系数)需要调参,文中以第一个任务的网格搜索确定 \(\lambda\),但不同数据集可能需要不同设置
- 缺少大规模实验:最大数据集只到SUN397(300类),未验证在更大规模(如ImageNet-1K 1000类)上的表现
与相关工作的对比¶
| 方法 | 额外参数 | 防遗忘策略 | 需要样本存储 | 模态利用 |
|---|---|---|---|---|
| L2P/DualPrompt | 有(prompt) | prompt池选择 | 否 | 仅视觉 |
| CODA-Prompt | 有(prompt) | 注意力组合 | 否 | 仅视觉 |
| CoOp | 有(prompt) | 无特殊处理 | 否 | 文本prompt |
| MOE-Adapter | 有(adapter+MoE) | 专家选择 | 否 | 跨模态 |
| PROOF | 有(投影头) | 任务特定头 | 可选 | 跨模态 |
| RAPF | 有(adapter) | 自适应融合 | 否 | 跨模态 |
| BOFA | 无 | 正交安全子空间 | 否 | 跨模态混合原型 |
BOFA的核心创新在于将适应限制在已有层而非引入新模块,这一设计理念在CIL领域较为新颖。与RAPF对比最直接——RAPF也做参数融合但需要额外adapter且维护per-class协方差矩阵(\(|\mathcal{Y}| \cdot d^2\)),BOFA只需一个全局散布矩阵($ d_o^2$),更加高效。
启发与关联¶
- 正交子空间约束思想可推广到其他需防遗忘的微调场景,如大模型的continual instruction tuning
- Bridge-layer的洞察值得关注——CLIP的线性投影层虽然简单,但蕴含足够的可塑性容纳下游任务知识
- 散布矩阵的特征值分析为理解任务间干扰提供了定量工具,可用于分析任务相似性
- 跨模态混合原型策略可应用于其他需要结合文本和视觉信息的开放世界识别任务
评分¶
- 新颖性: 8/10 — 正交安全子空间+bridge-layer微调的组合很有创意,但正交约束防遗忘的思路在OWM等工作中已有先例
- 技术深度: 8/10 — 数学推导完整(Proposition 1有证明),LoRA初始化策略巧妙,但核心思想(最小特征值方向少干扰)相对直观
- 实验完备度: 8/10 — 9个数据集、多种baseline对比、消融和可视化充分,但缺少计算开销详细对比和更大规模实验
- 写作清晰度: 9/10 — 结构清晰,从问题分析到方法设计的逻辑链条流畅
- 实用价值: 7/10 — 零额外参数设计有实际吸引力,但仅限CLIP架构,层次推理有额外开销
- 综合: 8/10