跳转至

Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning

会议: CVPR 2026 arXiv: 2603.12816 代码: 无 领域: 医学图像 关键词: 持续学习, 域增量学习, 提示学习, 灾难性遗忘, 知识蒸馏

一句话总结

提出 Residual SODAP 框架,通过 α-entmax 稀疏提示选择+残差聚合、无数据统计蒸馏+伪特征回放、提示使用模式漂移检测,以及不确定性加权多损失平衡,联合解决提示端表征适应和分类器端知识保持问题,在医学域增量学习上达到 SOTA。

研究背景与动机

持续学习(CL)面临灾难性遗忘挑战,在域增量学习(DIL)场景下更为严峻:没有任务标识符、不能存储历史数据。基于提示的持续学习(PCL)通过冻结骨干、仅训练提示来适应新域,但存在两个核心限制:

  1. 提示选择机制不足
  2. Hard selection(Top-k):限制表达能力,梯度无法通过选择过程传播
  3. Soft selection(Softmax):无关提示也有非零权重,导致噪声累积

  4. 忽视分类器结构:现有 PCL 方法只关注提示/提示池设计,但作者通过交叉组合诊断(backbone × classifier)实验发现,即使骨干表征保持良好,随域增量训练推进分类器层仍出现明显性能退化(Fig. 1),说明遗忘不仅来自表征漂移,还来自决策边界不稳定。

方法详解

整体框架

Residual SODAP 包含四个核心模块:(1) α-entmax 残差提示选择;(2) 基于统计的知识保持与伪回放;(3) 提示使用模式漂移检测(PUDD);(4) 不确定性加权。

关键设计

  1. α-Entmax 残差提示选择

  2. 查询增强:在每层 Transformer \(l\),用当前 CLS token \(\mathbf{q}^{(l)}\)、全局初始 CLS \(\mathbf{g}\)、以及通过 MHA 从可学习记忆库 \((\mathbf{M}_K, \mathbf{M}_V)\) 检索的信号 \(\mathbf{r}^{(l)}\),经拼接+瓶颈适配器得到增强查询 \(\tilde{\mathbf{q}}^{(l)}\)。记忆库通过 EMA 梯度无关更新(write),保持训练稳定。

  3. 稀疏选择:增强查询投影到瓶颈空间后与提示键余弦相似度计算 logit,用 α-entmax\(\alpha=1.5\))替代 softmax 做归一化: $\([\alpha\text{-entmax}(\boldsymbol{\ell})]_j = \left[\frac{\alpha-1}{\alpha}(\ell_j - \tau(\boldsymbol{\ell}))\right]_+^{\frac{1}{\alpha-1}}\)$ α-entmax 可为低分提示赋予精确零权重,消除无关提示噪声,同时保持全池可微。

  4. 冻结/活跃残差组合:Stage 2 起将提示池分为冻结集 \(\mathcal{F}\) 和活跃集 \(\mathcal{A}\),分别在两集上独立做 α-entmax 路由,最终以残差形式组合: $\(\mathbf{p}_{\text{out}}^{(l)} = \mathbf{p}_{\mathcal{F}}^{(l)} + \lambda_r \mathbf{p}_{\mathcal{A}}^{(l)}, \quad \lambda_r = 0.1\)$ 冻结集作为稳定基础保留先验知识,活跃集仅作残差微调适应新域。

  5. 统计知识保持(Statistical Knowledge Preservation)

  6. 阶段转换时保存知识资产:冻结当前分类头为 teacher;用 Welford 在线算法计算类别级特征统计量 \((\boldsymbol{\mu}_c, \boldsymbol{\sigma}_c^2)\),单次遍历、内存高效、数值稳定。

  7. 实特征蒸馏:将当前批次实特征分别过 teacher 和 student 头,用 KL 散度对齐: $\(\mathcal{L}_{\text{real}} = \text{KL}\left(\text{softmax}(\mathbf{z}_t/T) \| \text{softmax}(\mathbf{z}_s/T)\right) \cdot T^2\)$

  8. 伪特征回放:从存储的类别统计中采样 \(K\) 个伪特征 \(\tilde{\mathbf{f}}_k \sim \mathcal{N}(\boldsymbol{\mu}_{c_k}, \text{diag}(\boldsymbol{\sigma}_{c_k}^2))\)(均匀采样类别索引避免少数类欠表示),stop-gradient 后过 teacher/student 头计算蒸馏损失 \(\mathcal{L}_{\text{pseudo}}\)。无需存储任何原始数据即可保持分类器决策边界。

  9. 提示使用模式漂移检测(PUDD)

  10. 提取两个漂移信号:(i) 选择熵 \(H_t\)(域变化时分布重调,短期波动增大);(ii) 使用集合 IoU(\(\text{IoU}_t = |\mathcal{S}_t \cap \mathcal{S}_t^{\text{ref}}| / |\mathcal{S}_t \cup \mathcal{S}_t^{\text{ref}}|\),低 IoU 表示使用了不同提示)。

  11. 融合漂移评分: $\(D_t = \alpha \cdot \frac{|H_t - \bar{H}_t|}{\sigma_{H,t} + \epsilon} + \beta \cdot \left(\frac{1}{\max(\text{IoU}_t, \eta)} - 1\right)\)$

  12. 漂移比例池扩展:新增提示数 \(E = \text{clamp}\left(\lfloor|\mathcal{A}| \cdot \bar{D}/D_{\max}\rfloor, E_{\min}, E_{\max}\right)\),弱漂移少扩展、强漂移多扩展。

损失函数 / 训练策略

总损失由不确定性加权自动平衡(Kendall et al.):

\[\mathcal{L}_{\text{total}} = \sum_i \left(e^{-s_i} \mathcal{L}_i + s_i\right)\]

其中 \(s_i = \log \sigma_i^2\) 为可学习的对数方差。高不确定性(大方差)的损失项自动降权,正则项 \(s_i\) 防止方差趋于无穷的退化解。\(s_i\) 初始化为 0(等权起步),裁剪范围 \([-3, 6]\)

辅助损失包括:多样性损失 \(\mathcal{L}_{\text{div}}\)(抑制频繁共激活提示值之间的相似度)和范数正则 \(\mathcal{L}_{\text{norm}}\)(约束活跃提示仅作残差)。

实验关键数据

主实验

三个 DIL 基准上的对比(无 Task-ID、无额外数据存储):

数据集 指标 Residual SODAP 之前SOTA (OS-Prompt++) 提升
DR (糖尿病视网膜) AvgACC↑ 0.850 0.769 +0.081
DR AvgF↓ 0.047 0.113 -0.066
Skin Cancer AvgACC↑ 0.760 0.725 +0.035
Skin Cancer AvgF↓ 0.031 0.063 -0.032
CORe50 AvgACC↑ 0.995 0.983 +0.012
CORe50 AvgF↓ 0.003 0.014 -0.011

消融实验

配置 关键指标 说明
α-entmax vs Softmax AvgACC 显著提升 稀疏选择消除无关提示噪声
无残差组合 性能下降 冻结/活跃提示的残差结构对知识保持关键
无 PUDD 提示池固定大小 无法自适应新域所需容量
无伪特征回放 分类器退化 验证分类器级遗忘确实存在
无不确定性加权 需手动调权 自动加权简化超参并提升稳定性

关键发现

  • 分类器级遗忘是 PCL 中被忽视但重要的问题源,联合提示+分类器优化收益显著
  • α-entmax(\(\alpha=1.5\))在 softmax(表达但嘈杂)和 sparsemax(极度稀疏)之间取得最佳平衡
  • 基于统计的伪特征回放可在零数据存储下有效保持分类器决策边界

亮点与洞察

  • 首次系统性地在 PCL 中同时处理表征适应和分类器知识保持两个层面
  • PUDD 漂移检测方案巧妙利用了提示选择模式本身的信息,无需额外域判别器
  • Welford 在线统计+对角高斯伪回放的无数据蒸馏方案极简有效
  • 不确定性加权避免了多损失项的手动调参

局限性 / 可改进方向

  • 仅在分类任务上验证,未扩展到分割/检测等密集预测任务
  • 提示池扩展是单调递增的,缺乏压缩/修剪机制,长期运行可能参数膨胀
  • PUDD 的阈值 \(\theta\) 和窗口大小 \(W\) 仍为超参数,自适应性有限
  • 对角高斯假设可能不足以捕捉复杂的类别特征分布

相关工作与启发

  • 与 OS-Prompt/Coda-Prompt/Dual-Prompt 等 PCL 方法对比,突出稀疏选择和分类器保持的优势
  • 伪特征回放思想可推广到其他无数据持续学习场景
  • 漂移检测+动态提示扩展可用于在线学习系统的自适应架构调整

评分

  • 新颖性: ⭐⭐⭐⭐ 多个创新组件协同工作,分类器级遗忘的分析视角新颖
  • 实验充分度: ⭐⭐⭐⭐ 三个基准、多基线、完整消融、三次独立运行
  • 写作质量: ⭐⭐⭐⭐ 公式推导细致,各模块动机清晰
  • 价值: ⭐⭐⭐⭐ 对医学 DIL 场景有直接应用价值