Task-Agnostic Guided Feature Expansion for Class-Incremental Learning¶

会议: CVPR 2025
arXiv: 2503.00823
代码: GitHub
领域: Others / Continual Learning
关键词: 类增量学习, 特征扩展, 任务无关特征, 自监督学习, 特征碰撞

一句话总结¶

提出TagFex框架，通过持续自监督学习捕获任务无关(task-agnostic)特征，并利用merge attention将其与任务特定特征融合后蒸馏回推理模型，缓解扩展式类增量学习中的特征碰撞问题。

研究背景与动机¶

扩展式类增量学习（如DER）为每个新任务扩展新的特征提取器，保持旧模型不变。虽然有效抵抗遗忘，但面临特征碰撞问题：新任务学到的特征可能与旧任务特征重叠（如两个任务都依赖颜色特征区分不同类别），导致跨任务误分类。

现有解决方案（DER的辅助分类器）依赖少量rehearsal samples来鼓励捕获多样特征，但rehearsal samples数量有限导致训练不均衡，效果次优。CKA相似度分析显示DER各模型学到的特征相似度较高（~0.35），而GradCAM可视化也表明它们关注相似区域。

核心洞察：分类任务只要求模型捕获最小必要特征（task-specific），大量有用但与当前分类无关的特征（task-agnostic）被忽略。如果这些任务无关特征能被捕获并传递给后续任务，新模型就能学到更多样化的特征。

方法详解¶

整体框架¶

TagFex由三部分组成：(1) 通过持续自监督学习(CSSL)训练独立模型持续捕获任务无关特征；(2) merge attention自适应融合任务无关和任务特定特征；(3) 通过KL散度蒸馏将融合后的丰富特征迁移回任务特定模型（推理只用任务特定模型）。

关键设计1：持续自监督学习捕获任务无关特征¶

功能: 在每个任务中持续学习与分类无关的丰富视觉表示
核心思路: 使用CaSSLe（基于SimCLR的持续自监督方法）训练独立的任务无关模型\(f_{\text{ta}}\)。初始任务用标准InfoNCE损失，增量任务增加预测性损失——训练predictor \(g(\cdot)\)使当前特征能预测上一轮特征\(f'_{\text{ta}}\)，保证表达能力逐任务递增
设计动机: 自监督学习不受分类目标约束，能发现分类任务忽略的特征（如纹理、形状等），且通过持续学习确保随增量任务积累越来越丰富的表示

关键设计2：Merge Attention自适应特征融合¶

功能: 从任务无关特征中提取对当前分类任务有用的信息
核心思路: 将task-specific特征图作为Query，与task-specific和task-agnostic的Key/Value拼接后做多头注意力：\(O^{(h)} = \text{Softmax}(\frac{Q^{(h)}[K_{\text{ts}}^{(h)}, K_{\text{ta}}^{(h)}]^T}{\sqrt{d/h}})[V_{\text{ts}}^{(h)}, V_{\text{ta}}^{(h)}]\)。任务无关模型梯度停止，不受分类影响
设计动机: 两种特征在不同空间，直接拼接不合适。注意力机制允许task-specific特征选择性地从task-agnostic特征中"取用"有价值的信息。训练过程中注意力从ta侧逐渐转移到ts侧，说明信息被逐步吸收

关键设计3：知识迁移（蒸馏回推理模型）¶

功能: 将融合后的丰富特征信息迁移到任务特定模型，使其在推理时无需task-agnostic模型
核心思路: 使用KL散度\(\mathcal{L}_{\text{trans}} = D_{\text{KL}}(\text{StopGrad}(p_m) \| p_{\text{ts}})\)将merge classifier的logits蒸馏到任务特定分类器。推理时只使用task-specific模型，保持与DER相同的参数量
设计动机: 直接使用融合特征推理会受task-agnostic模型持续更新的分布漂移影响。蒸馏回task-specific模型既保证稳定性又传递了多样特征信息

损失函数¶

\(\mathcal{L} = \lambda_{\text{ta}}\mathcal{L}_{\text{ta}} + \lambda_{\text{mcls}}\mathcal{L}_{\text{mcls}} + \mathcal{L}_{\text{ts}}\)，其中\(\mathcal{L}_{\text{ts}} = \mathcal{L}_{\text{cls}} + \mathcal{L}_{\text{aux}} + \mathcal{L}_{\text{trans}}\)。

实验关键数据¶

主实验：各数据集类增量学习结果¶

方法	CIFAR100 10-10 (Last/Avg)	ImageNet100 10-10 (Last/Avg)	ImageNet1000 100-100 (Last/Avg)
iCaRL	49.52/64.64	50.98/67.11	40.47/57.55
DER	64.35/75.36	66.71/77.18	58.83/66.87
BEEF	60.98/71.94	68.78/77.62	58.67/67.09
TagFex	68.23/78.45	70.84/79.27	61.45/68.32
TagFex-P	67.34/78.02	69.21/78.56	60.14/67.65

消融实验（CIFAR100）¶

Task-agnostic	Merge Attn	Knowledge Transfer	10-10 Last/Avg
✓	✗	✓	64.45/75.34
✓	✓	✗	65.86/76.32
✓	✓	✓	68.23/78.45

关键发现¶

TagFex相比DER稳定提升3-4%准确率，且推理参数量相同
CKA相似度从DER的~0.35降到~0.2，证明特征多样性显著提升
注意力可视化显示训练初期关注task-agnostic侧，后期迁移到task-specific侧
剪枝版本TagFex-P参数从61.6M降至11.6-14.4M，准确率仅微降
更换SSL方法（SimCLR→BYOL）可进一步提升，说明框架对SSL方法不敏感

亮点与洞察¶

特征碰撞问题的清晰阐述: 用CKA和GradCAM可视化证明现有方法特征多样性不足
训练-推理解耦设计: 训练时用task-agnostic模型辅助，推理时完全不需要，无额外推理开销
Merge Attention的注意力演化: 从ta→ts的注意力迁移直观展示了知识吸收过程

局限与展望¶

训练时需要额外维护task-agnostic模型（约300样本等值的存储），虽已在memory-aligned实验中验证仍有优势
目前仅在CNN骨干(ResNet18)上验证，对ViT等架构的适用性待探索
自监督学习的额外训练开销可能在边缘场景中不可忽视

评分¶

⭐⭐⭐⭐ — 问题分析透彻，解决方案优雅且有原则性（特征碰撞→多样性→task-agnostic特征）。推理零额外开销是重要的实用性优势。实验全面，包含memory-aligned公平对比。