Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning¶

会议: CVPR 2026 arXiv: 2603.12816 代码: 无领域: 医学图像 关键词: 持续学习, 域增量学习, 提示学习, 灾难性遗忘, 知识蒸馏

一句话总结¶

提出 Residual SODAP 框架，通过 α-entmax 稀疏提示选择+残差聚合、无数据统计蒸馏+伪特征回放、提示使用模式漂移检测，以及不确定性加权多损失平衡，联合解决提示端表征适应和分类器端知识保持问题，在医学域增量学习上达到 SOTA。

研究背景与动机¶

持续学习（CL）面临灾难性遗忘挑战，在域增量学习（DIL）场景下更为严峻：没有任务标识符、不能存储历史数据。基于提示的持续学习（PCL）通过冻结骨干、仅训练提示来适应新域，但存在两个核心限制：

提示选择机制不足：
Hard selection（Top-k）：限制表达能力，梯度无法通过选择过程传播
Soft selection（Softmax）：无关提示也有非零权重，导致噪声累积
忽视分类器结构：现有 PCL 方法只关注提示/提示池设计，但作者通过交叉组合诊断（backbone × classifier）实验发现，即使骨干表征保持良好，随域增量训练推进分类器层仍出现明显性能退化（Fig. 1），说明遗忘不仅来自表征漂移，还来自决策边界不稳定。

方法详解¶

整体框架¶

Residual SODAP 包含四个核心模块：(1) α-entmax 残差提示选择；(2) 基于统计的知识保持与伪回放；(3) 提示使用模式漂移检测（PUDD）；(4) 不确定性加权。

关键设计¶

α-Entmax 残差提示选择：
查询增强：在每层 Transformer $l$，用当前 CLS token $\mathbf{q}^{(l)}$、全局初始 CLS $\mathbf{g}$、以及通过 MHA 从可学习记忆库 $(\mathbf{M}_K, \mathbf{M}_V)$ 检索的信号 $\mathbf{r}^{(l)}$，经拼接+瓶颈适配器得到增强查询 $\tilde{\mathbf{q}}^{(l)}$。记忆库通过 EMA 梯度无关更新（write），保持训练稳定。
稀疏选择：增强查询投影到瓶颈空间后与提示键余弦相似度计算 logit，用 α-entmax（$\alpha=1.5$）替代 softmax 做归一化： $$[\alpha\text{-entmax}(\boldsymbol{\ell})]_j = \left[\frac{\alpha-1}{\alpha}(\ell_j - \tau(\boldsymbol{\ell}))\right]_+^{\frac{1}{\alpha-1}}$$ α-entmax 可为低分提示赋予精确零权重，消除无关提示噪声，同时保持全池可微。
冻结/活跃残差组合：Stage 2 起将提示池分为冻结集 $\mathcal{F}$ 和活跃集 $\mathcal{A}$，分别在两集上独立做 α-entmax 路由，最终以残差形式组合： $$\mathbf{p}_{\text{out}}^{(l)} = \mathbf{p}_{\mathcal{F}}^{(l)} + \lambda_r \mathbf{p}_{\mathcal{A}}^{(l)}, \quad \lambda_r = 0.1$$ 冻结集作为稳定基础保留先验知识，活跃集仅作残差微调适应新域。
统计知识保持（Statistical Knowledge Preservation）：
阶段转换时保存知识资产：冻结当前分类头为 teacher；用 Welford 在线算法计算类别级特征统计量 $(\boldsymbol{\mu}_c, \boldsymbol{\sigma}_c^2)$，单次遍历、内存高效、数值稳定。
实特征蒸馏：将当前批次实特征分别过 teacher 和 student 头，用 KL 散度对齐： $$\mathcal{L}_{\text{real}} = \text{KL}\left(\text{softmax}(\mathbf{z}_t/T) \| \text{softmax}(\mathbf{z}_s/T)\right) \cdot T^2$$
伪特征回放：从存储的类别统计中采样 $K$ 个伪特征 $\tilde{\mathbf{f}}_k \sim \mathcal{N}(\boldsymbol{\mu}_{c_k}, \text{diag}(\boldsymbol{\sigma}_{c_k}^2))$（均匀采样类别索引避免少数类欠表示），stop-gradient 后过 teacher/student 头计算蒸馏损失 $\mathcal{L}_{\text{pseudo}}$。无需存储任何原始数据即可保持分类器决策边界。
提示使用模式漂移检测（PUDD）：
提取两个漂移信号：(i) 选择熵 $H_t$（域变化时分布重调，短期波动增大）；(ii) 使用集合 IoU（$\text{IoU}_t = |\mathcal{S}_t \cap \mathcal{S}_t^{\text{ref}}| / |\mathcal{S}_t \cup \mathcal{S}_t^{\text{ref}}|$，低 IoU 表示使用了不同提示）。
融合漂移评分： $$D_t = \alpha \cdot \frac{|H_t - \bar{H}_t|}{\sigma_{H,t} + \epsilon} + \beta \cdot \left(\frac{1}{\max(\text{IoU}_t, \eta)} - 1\right)$$
漂移比例池扩展：新增提示数 $E = \text{clamp}\left(\lfloor|\mathcal{A}| \cdot \bar{D}/D_{\max}\rfloor, E_{\min}, E_{\max}\right)$，弱漂移少扩展、强漂移多扩展。

损失函数 / 训练策略¶

总损失由不确定性加权自动平衡（Kendall et al.）：

\[\mathcal{L}_{\text{total}} = \sum_i \left(e^{-s_i} \mathcal{L}_i + s_i\right)\]

其中 $s_i = \log \sigma_i^2$ 为可学习的对数方差。高不确定性（大方差）的损失项自动降权，正则项 $s_i$ 防止方差趋于无穷的退化解。$s_i$ 初始化为 0（等权起步），裁剪范围 $[-3, 6]$。

辅助损失包括：多样性损失 $\mathcal{L}_{\text{div}}$（抑制频繁共激活提示值之间的相似度）和范数正则 $\mathcal{L}_{\text{norm}}$（约束活跃提示仅作残差）。

实验关键数据¶

主实验¶

三个 DIL 基准上的对比（无 Task-ID、无额外数据存储）：

数据集	指标	Residual SODAP	之前SOTA (OS-Prompt++)	提升
DR (糖尿病视网膜)	AvgACC↑	0.850	0.769	+0.081
DR	AvgF↓	0.047	0.113	-0.066
Skin Cancer	AvgACC↑	0.760	0.725	+0.035
Skin Cancer	AvgF↓	0.031	0.063	-0.032
CORe50	AvgACC↑	0.995	0.983	+0.012
CORe50	AvgF↓	0.003	0.014	-0.011

消融实验¶

配置	关键指标	说明
α-entmax vs Softmax	AvgACC 显著提升	稀疏选择消除无关提示噪声
无残差组合	性能下降	冻结/活跃提示的残差结构对知识保持关键
无 PUDD	提示池固定大小	无法自适应新域所需容量
无伪特征回放	分类器退化	验证分类器级遗忘确实存在
无不确定性加权	需手动调权	自动加权简化超参并提升稳定性

关键发现¶

分类器级遗忘是 PCL 中被忽视但重要的问题源，联合提示+分类器优化收益显著
α-entmax（$\alpha=1.5$）在 softmax（表达但嘈杂）和 sparsemax（极度稀疏）之间取得最佳平衡
基于统计的伪特征回放可在零数据存储下有效保持分类器决策边界

亮点与洞察¶

首次系统性地在 PCL 中同时处理表征适应和分类器知识保持两个层面
PUDD 漂移检测方案巧妙利用了提示选择模式本身的信息，无需额外域判别器
Welford 在线统计+对角高斯伪回放的无数据蒸馏方案极简有效
不确定性加权避免了多损失项的手动调参

局限性 / 可改进方向¶

仅在分类任务上验证，未扩展到分割/检测等密集预测任务
提示池扩展是单调递增的，缺乏压缩/修剪机制，长期运行可能参数膨胀
PUDD 的阈值 $\theta$ 和窗口大小 $W$ 仍为超参数，自适应性有限
对角高斯假设可能不足以捕捉复杂的类别特征分布

评分¶

新颖性: ⭐⭐⭐⭐ 多个创新组件协同工作，分类器级遗忘的分析视角新颖
实验充分度: ⭐⭐⭐⭐ 三个基准、多基线、完整消融、三次独立运行
写作质量: ⭐⭐⭐⭐ 公式推导细致，各模块动机清晰
价值: ⭐⭐⭐⭐ 对医学 DIL 场景有直接应用价值