Integrating Task-Specific and Universal Adapters for Pre-Trained Model-based Class-Incremental Learning¶

会议: ICCV 2025
arXiv: 2508.08165
代码: https://github.com/LAMDA-CL/ICCV2025-TUNA
领域: model_compression
关键词: 类增量学习, 适配器, 预训练模型, 模型融合, 持续学习

一句话总结¶

提出 TUNA 方法，通过为每个增量任务训练正交的 task-specific adapter，并将它们融合为一个 universal adapter，结合基于熵的 adapter 选择机制和双 adapter 集成推理策略，在无 exemplar 的 PTM-based CIL 中实现 SOTA。

研究背景与动机¶

类增量学习（CIL）要求模型不断学习新类别而不遗忘旧类别。在预训练模型（PTM）时代，主流做法是冻结 PTM 权重，通过轻量模块（如 prompt、adapter）进行增量适配。然而现有方法存在两大问题：

模块选择不准确：L2P 等方法依赖 key-query 匹配来选择 task-specific prompt，匹配过程脆弱，容易选错模块导致性能下降

忽略跨任务共享知识：现有方法只关注 task-specific 知识，无法区分跨任务的高度相似类别（例如不同任务中学到的猫和狗可能外观相似）

这两个问题导致推理时既可能选错 adapter，又无法利用通用知识来辅助分类。

方法详解¶

整体框架¶

TUNA 包含三个核心组件：（1）正交约束的 task-specific adapter 训练；（2）多阶段 adapter 融合构建 universal adapter；（3）基于预测不确定性的 adapter 选择与双 adapter 集成推理。

关键设计¶

正交 Task-Specific Adapter 训练：对每个增量任务 \(t\)，初始化新 adapter \(\mathcal{A}_t\)（bottleneck 结构：\(W_{down} \in \mathbb{R}^{d \times r}\), ReLU, \(W_{up} \in \mathbb{R}^{r \times d}\)），通过残差连接注入 MLP 层。为防止任务间特征冗余，在 up-projection 权重上施加正交约束： \(\mathcal{L}_{orth} = \sum_{i=1}^{t-1} \|W_{up}^t \cdot {W_{up}^i}^\top\|_1\) 仅对 up-projection 权重施加正交（消融实验表明同时约束 down-projection 反而有害），因为 up-projection 负责将特征投影到高维空间、编码 task-specific 信息。
多阶段 Adapter 融合（Universal Adapter）：训练完 \(t\) 个任务后，将所有 adapter 权重展平为向量 \(\{\mathbf{v}^1, \ldots, \mathbf{v}^t\}\)，通过两步操作融合：
- 符号聚合：对每个参数位置取所有任务向量的符号投票 \(\mathbf{s}^{uni} = \text{sgn}(\sum_i \mathbf{v}^i)\)
- 幅值选择：对每个参数位置，在保持共识符号方向的前提下取最大绝对值
- 最终 universal task vector \(\mathbf{v}^{uni} = \epsilon^{uni} \odot \mathbf{s}^{uni}\)，reshape 回 adapter 形状

该融合策略基于模型合并技术的两个操作：符号求和作为投票系统保持主导特征方向，最大绝对值选择抑制噪声并保留具有判别力的特征幅值。

基于熵的 Adapter 选择与双 Adapter 集成：
- 选择机制：通过实验发现低熵（高置信度）与高准确率强相关。推理时计算每个 task-specific adapter 的预测熵，选择熵最小的 adapter \(\mathcal{A}^*\) \(\mathcal{A}^* = \arg\min_{\mathcal{A}_i} \left(-\sum_c f_c(\mathbf{x}; \mathcal{A}_i) \log f_c(\mathbf{x}; \mathcal{A}_i)\right)\)
- 集成推理：将选中的 task-specific adapter 与 universal adapter 的预测概率相加：\(y^* = \arg\max_y (f_y(\mathbf{x}; \mathcal{A}^*) + f_y(\mathbf{x}; \mathcal{A}_{uni}))\)

损失函数 / 训练策略¶

分类损失：标准交叉熵 \(\mathcal{L}_{cls}\)
正交损失：\(\mathcal{L}_{orth}\) 仅约束 up-projection 权重
总损失：\(\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{orth}\)，\(\lambda\) 初始化为 1e-3 并指数衰减
每个任务训练完后计算类别均值和方差，用于后续任务中 replay 以校准分类器
训练细节：SGD + momentum，lr=0.01 cosine annealing，20 epochs，batch size=48，adapter projection dim \(r\)=16

实验关键数据¶

主实验¶

方法	CIFAR \(\bar{\mathcal{A}}\)	CIFAR \(\mathcal{A}_B\)	IN-R \(\bar{\mathcal{A}}\)	IN-R \(\mathcal{A}_B\)	IN-A \(\bar{\mathcal{A}}\)	IN-A \(\mathcal{A}_B\)	ObjectNet \(\bar{\mathcal{A}}\)	ObjectNet \(\mathcal{A}_B\)
L2P	85.94	79.93	75.46	69.77	49.39	41.71	63.78	52.19
CODA-Prompt	89.11	81.96	77.97	72.27	53.54	42.73	66.07	53.29
SLCA	92.49	88.55	81.17	77.00	68.66	58.74	72.55	61.30
RanPAC	94.00	90.62	82.98	77.94	69.32	61.82	72.76	62.02
EASE	91.51	85.80	81.74	76.17	65.34	55.04	70.84	57.86
TUNA	94.44	90.74	84.22	79.42	73.78	64.78	76.46	66.32

ViT-B/16-IN21K backbone, B0 Inc 设置。TUNA 在所有四个数据集上均为 SOTA，尤其在挑战性较大的 ImageNet-A 和 ObjectNet 上提升显著。

消融实验¶

配置	ImageNet-A B0 Inc20 \(\mathcal{A}_B\)
Baseline（多 adapter max logit）	~55
+ entropy-based adapter selection	~59
+ orthogonal loss	~62
+ universal adapter（完整 TUNA）	~65

每个组件均有正向贡献。三种推理策略对比（ImageNet-A）： - Variation-1（TUNA 完整策略）：最优 - Variation-2（仅 entropy 选择 task-specific）：缺乏共享知识 - Variation-3（仅 universal adapter）：缺乏 task-specific 细粒度

正交损失消融（ObjectNet B0 Inc20）：仅约束 up-projection（Variation-1）效果最好，同时约束 up+down 会过度刚性导致欠拟合。

关键发现¶

TUNA 在无 exemplar 设置下超越使用 20/class exemplar 的传统 CIL 方法（iCaRL、DER、FOSTER 等）
超参数（\(r \in \{8,16,32,64,128\}\), \(\lambda \in \{0.001,...,0.1\}\)）对性能影响较小，鲁棒性好
可视化表明：task-specific adapter 对域内类别区分力强但跨域混淆（如金毛犬→狮子），universal adapter 能捕获跨任务共享特征纠正此类错误

亮点与洞察¶

adapter 融合策略简洁有效：基于符号投票+最大绝对值选择的融合方式，无需额外训练即可从多个 adapter 中提取通用知识
熵作为 adapter 选择代理：相比 key-query 匹配更稳定可靠，实验验证了低熵↔高准确率的强相关性
双 adapter 互补推理：task-specific 提供细粒度区分，universal 提供跨任务泛化能力
正交约束设计精细：仅约束 up-projection 这一选择体现了对 adapter 结构功能的深入理解

局限与展望¶

推理效率：选择最优 adapter 需要多次前向传播（等于任务数量），计算开销随任务增多线性增长
universal adapter 融合是静态的（每次新任务后重新融合），未探索在线融合或动态调整
未探索与其他 PEFT 方法（如 LoRA、VPT）的深度结合，虽然论文提到框架兼容

评分¶

新颖性: ⭐⭐⭐⭐ 双 adapter 推理策略和 adapter 融合方法设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集，多种 baseline，详细消融和分析
写作质量: ⭐⭐⭐⭐ 逻辑清晰，动机明确，实验展示完整
价值: ⭐⭐⭐⭐ 为 PTM-based CIL 提供了有效的 adapter 管理方案