Attention Retention for Continual Learning with Vision Transformers¶

会议: AAAI 2026
arXiv: 2602.05454
代码: 无
领域: LLM效率 / 持续学习
关键词: 持续学习, Vision Transformer, 注意力保持, 灾难性遗忘, 梯度掩码

一句话总结¶

提出ARCL-ViT框架，通过注意力掩码生成和梯度掩码两步策略防止ViT在持续学习中的注意力漂移，在ImageNet-R和CIFAR-100上取得SOTA结果，证明保持注意力模式是解决灾难性遗忘的关键。

领域现状：持续学习要求模型在学习新任务时保持对旧任务的性能。ViT在CL中的应用日益增多。
现有痛点：(a) 灾难性遗忘在ViT中表现为注意力漂移；(b) 正则化方法（EWC）对ViT效果有限；(c) 扩展方法（DualPrompt）增加大量参数。
核心矛盾：更新参数学习新任务时可能破坏对旧任务特征的注意力分配。
本文要解决什么？ 直接防止ViT中旧任务的注意力模式被破坏。
切入角度：受人类V1视觉皮层选择性注意启发——保持对重要特征的持续关注。
核心idea一句话：生成前一任务的注意力掩码，在新任务训练时零化对应区域的Q/K/V梯度，直接防止注意力漂移。

输入：连续到达的任务序列。输出：能处理所有已学任务的ViT。两步：(1) 层级rollout提取注意力图 → 自适应阈值 → 二值掩码；(2) 掩码零化Q/K/V权重梯度。

注意力掩码生成：
做什么：从前一任务提取需保护的注意力区域
核心思路：层级rollout提取 \(\mathbf{U}_{t-1}\)，实例自适应阈值生成 \(\bar{\mathbf{M}}_{t-1}\)
设计动机：识别对旧任务判别性特征至关重要的注意力区域
梯度掩码：
做什么：新任务训练时保护旧注意力模式
核心思路：\(\nabla \mathbf{W}'_{\theta,t} = \nabla \mathbf{W}_{\theta,t} \odot (1 - \bar{\mathbf{M}}_{t-1})\)，配合Adam缩放 \(\Delta\mathbf{W}'_{\theta,t} = (\nabla\mathbf{W}'_{\theta,t} / \nabla\mathbf{W}_{\theta,t}) \odot \Delta\mathbf{W}_{\theta,t}\)
设计动机：直接在梯度层面阻止对旧任务关键区域的修改，与Adam兼容
实例自适应阈值：
做什么：为不同样本生成不同的二值化阈值
设计动机：不同任务/样本的注意力分布差异很大

标准交叉熵损失，梯度掩码在反向传播后应用，无需修改损失函数。

方法	10S-ImageNet-R	20S-ImageNet-R	10S-CIFAR-100
CODA-Prompt	75.45%	-	86-89%
OS-Prompt++	-	73.77%	-
ARCL-ViT	SOTA	SOTA	~87%