Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning¶
会议: CVPR 2026 arXiv: 2603.12816 代码: 无 领域: 医学图像 关键词: 持续学习, 域增量学习, 提示学习, 灾难性遗忘, 知识蒸馏
一句话总结¶
提出 Residual SODAP 框架,通过 α-entmax 稀疏提示选择+残差聚合、无数据统计蒸馏+伪特征回放、提示使用模式漂移检测,以及不确定性加权多损失平衡,联合解决提示端表征适应和分类器端知识保持问题,在医学域增量学习上达到 SOTA。
研究背景与动机¶
持续学习(CL)面临灾难性遗忘挑战,在域增量学习(DIL)场景下更为严峻:没有任务标识符、不能存储历史数据。基于提示的持续学习(PCL)通过冻结骨干、仅训练提示来适应新域,但存在两个核心限制:
- 提示选择机制不足:
- Hard selection(Top-k):限制表达能力,梯度无法通过选择过程传播
-
Soft selection(Softmax):无关提示也有非零权重,导致噪声累积
-
忽视分类器结构:现有 PCL 方法只关注提示/提示池设计,但作者通过交叉组合诊断(backbone × classifier)实验发现,即使骨干表征保持良好,随域增量训练推进分类器层仍出现明显性能退化(Fig. 1),说明遗忘不仅来自表征漂移,还来自决策边界不稳定。
方法详解¶
整体框架¶
Residual SODAP 包含四个核心模块:(1) α-entmax 残差提示选择;(2) 基于统计的知识保持与伪回放;(3) 提示使用模式漂移检测(PUDD);(4) 不确定性加权。
关键设计¶
-
α-Entmax 残差提示选择:
-
查询增强:在每层 Transformer \(l\),用当前 CLS token \(\mathbf{q}^{(l)}\)、全局初始 CLS \(\mathbf{g}\)、以及通过 MHA 从可学习记忆库 \((\mathbf{M}_K, \mathbf{M}_V)\) 检索的信号 \(\mathbf{r}^{(l)}\),经拼接+瓶颈适配器得到增强查询 \(\tilde{\mathbf{q}}^{(l)}\)。记忆库通过 EMA 梯度无关更新(write),保持训练稳定。
-
稀疏选择:增强查询投影到瓶颈空间后与提示键余弦相似度计算 logit,用 α-entmax(\(\alpha=1.5\))替代 softmax 做归一化: $\([\alpha\text{-entmax}(\boldsymbol{\ell})]_j = \left[\frac{\alpha-1}{\alpha}(\ell_j - \tau(\boldsymbol{\ell}))\right]_+^{\frac{1}{\alpha-1}}\)$ α-entmax 可为低分提示赋予精确零权重,消除无关提示噪声,同时保持全池可微。
-
冻结/活跃残差组合:Stage 2 起将提示池分为冻结集 \(\mathcal{F}\) 和活跃集 \(\mathcal{A}\),分别在两集上独立做 α-entmax 路由,最终以残差形式组合: $\(\mathbf{p}_{\text{out}}^{(l)} = \mathbf{p}_{\mathcal{F}}^{(l)} + \lambda_r \mathbf{p}_{\mathcal{A}}^{(l)}, \quad \lambda_r = 0.1\)$ 冻结集作为稳定基础保留先验知识,活跃集仅作残差微调适应新域。
-
统计知识保持(Statistical Knowledge Preservation):
-
阶段转换时保存知识资产:冻结当前分类头为 teacher;用 Welford 在线算法计算类别级特征统计量 \((\boldsymbol{\mu}_c, \boldsymbol{\sigma}_c^2)\),单次遍历、内存高效、数值稳定。
-
实特征蒸馏:将当前批次实特征分别过 teacher 和 student 头,用 KL 散度对齐: $\(\mathcal{L}_{\text{real}} = \text{KL}\left(\text{softmax}(\mathbf{z}_t/T) \| \text{softmax}(\mathbf{z}_s/T)\right) \cdot T^2\)$
-
伪特征回放:从存储的类别统计中采样 \(K\) 个伪特征 \(\tilde{\mathbf{f}}_k \sim \mathcal{N}(\boldsymbol{\mu}_{c_k}, \text{diag}(\boldsymbol{\sigma}_{c_k}^2))\)(均匀采样类别索引避免少数类欠表示),stop-gradient 后过 teacher/student 头计算蒸馏损失 \(\mathcal{L}_{\text{pseudo}}\)。无需存储任何原始数据即可保持分类器决策边界。
-
提示使用模式漂移检测(PUDD):
-
提取两个漂移信号:(i) 选择熵 \(H_t\)(域变化时分布重调,短期波动增大);(ii) 使用集合 IoU(\(\text{IoU}_t = |\mathcal{S}_t \cap \mathcal{S}_t^{\text{ref}}| / |\mathcal{S}_t \cup \mathcal{S}_t^{\text{ref}}|\),低 IoU 表示使用了不同提示)。
-
融合漂移评分: $\(D_t = \alpha \cdot \frac{|H_t - \bar{H}_t|}{\sigma_{H,t} + \epsilon} + \beta \cdot \left(\frac{1}{\max(\text{IoU}_t, \eta)} - 1\right)\)$
-
漂移比例池扩展:新增提示数 \(E = \text{clamp}\left(\lfloor|\mathcal{A}| \cdot \bar{D}/D_{\max}\rfloor, E_{\min}, E_{\max}\right)\),弱漂移少扩展、强漂移多扩展。
损失函数 / 训练策略¶
总损失由不确定性加权自动平衡(Kendall et al.):
其中 \(s_i = \log \sigma_i^2\) 为可学习的对数方差。高不确定性(大方差)的损失项自动降权,正则项 \(s_i\) 防止方差趋于无穷的退化解。\(s_i\) 初始化为 0(等权起步),裁剪范围 \([-3, 6]\)。
辅助损失包括:多样性损失 \(\mathcal{L}_{\text{div}}\)(抑制频繁共激活提示值之间的相似度)和范数正则 \(\mathcal{L}_{\text{norm}}\)(约束活跃提示仅作残差)。
实验关键数据¶
主实验¶
三个 DIL 基准上的对比(无 Task-ID、无额外数据存储):
| 数据集 | 指标 | Residual SODAP | 之前SOTA (OS-Prompt++) | 提升 |
|---|---|---|---|---|
| DR (糖尿病视网膜) | AvgACC↑ | 0.850 | 0.769 | +0.081 |
| DR | AvgF↓ | 0.047 | 0.113 | -0.066 |
| Skin Cancer | AvgACC↑ | 0.760 | 0.725 | +0.035 |
| Skin Cancer | AvgF↓ | 0.031 | 0.063 | -0.032 |
| CORe50 | AvgACC↑ | 0.995 | 0.983 | +0.012 |
| CORe50 | AvgF↓ | 0.003 | 0.014 | -0.011 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| α-entmax vs Softmax | AvgACC 显著提升 | 稀疏选择消除无关提示噪声 |
| 无残差组合 | 性能下降 | 冻结/活跃提示的残差结构对知识保持关键 |
| 无 PUDD | 提示池固定大小 | 无法自适应新域所需容量 |
| 无伪特征回放 | 分类器退化 | 验证分类器级遗忘确实存在 |
| 无不确定性加权 | 需手动调权 | 自动加权简化超参并提升稳定性 |
关键发现¶
- 分类器级遗忘是 PCL 中被忽视但重要的问题源,联合提示+分类器优化收益显著
- α-entmax(\(\alpha=1.5\))在 softmax(表达但嘈杂)和 sparsemax(极度稀疏)之间取得最佳平衡
- 基于统计的伪特征回放可在零数据存储下有效保持分类器决策边界
亮点与洞察¶
- 首次系统性地在 PCL 中同时处理表征适应和分类器知识保持两个层面
- PUDD 漂移检测方案巧妙利用了提示选择模式本身的信息,无需额外域判别器
- Welford 在线统计+对角高斯伪回放的无数据蒸馏方案极简有效
- 不确定性加权避免了多损失项的手动调参
局限性 / 可改进方向¶
- 仅在分类任务上验证,未扩展到分割/检测等密集预测任务
- 提示池扩展是单调递增的,缺乏压缩/修剪机制,长期运行可能参数膨胀
- PUDD 的阈值 \(\theta\) 和窗口大小 \(W\) 仍为超参数,自适应性有限
- 对角高斯假设可能不足以捕捉复杂的类别特征分布
相关工作与启发¶
- 与 OS-Prompt/Coda-Prompt/Dual-Prompt 等 PCL 方法对比,突出稀疏选择和分类器保持的优势
- 伪特征回放思想可推广到其他无数据持续学习场景
- 漂移检测+动态提示扩展可用于在线学习系统的自适应架构调整
评分¶
- 新颖性: ⭐⭐⭐⭐ 多个创新组件协同工作,分类器级遗忘的分析视角新颖
- 实验充分度: ⭐⭐⭐⭐ 三个基准、多基线、完整消融、三次独立运行
- 写作质量: ⭐⭐⭐⭐ 公式推导细致,各模块动机清晰
- 价值: ⭐⭐⭐⭐ 对医学 DIL 场景有直接应用价值