Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning¶
会议: CVPR 2026
arXiv: 2603.12816
代码: 无
领域: 持续学习 / Prompt-based CL
关键词: 域增量学习, prompt池, α-entmax, 伪特征重放, 漂移检测, 不确定性加权
一句话总结¶
提出Residual SODAP框架,在无任务ID、无数据存储的域增量学习中,联合解决表示适应(α-entmax稀疏prompt选择+残差聚合)和分类器保持(统计伪特征重放+知识蒸馏),在DR、皮肤癌和CORe50三个基准上达到SOTA。
背景与动机¶
现有Prompt-based持续学习(PCL)方法存在两个关键限制:(1)prompt选择方案不够好——Top-k硬选择不可微且表达力有限,Softmax软选择虽然可微但噪声累积(不相关prompt也有非零权重);(2)忽略了分类器层面的遗忘——现有PCL主要关注prompt/prompt池设计来改善表示适应,但通过cross-composition诊断实验发现,分类器决策边界不稳定才是域增量学习中遗忘的主要来源。
核心问题¶
如何在prompt-based CL框架内同时实现高质量的表示适应和分类器层面的知识保持,在无Task-ID、无过去数据存储的严格约束下缓解灾难性遗忘?
方法详解¶
整体框架¶
四个核心组件在frozen ViT backbone上协同工作:(1)α-entmax稀疏prompt选择与残差聚合,(2)基于统计的伪特征重放做分类器知识保持,(3)基于prompt使用模式的域漂移检测(PUDD),(4)不确定性加权多目标优化。
关键设计¶
-
α-entmax残差prompt选择: 用memory bank增强查询(CLS token + 全局上下文 + memory检索信号),在bottleneck空间通过α-entmax(α=1.5)做稀疏prompt选择——自动将不相关prompt权重设为精确零。Prompt池分为frozen集ℱ和active集𝒜,frozen保持先前知识,active做残差适应(\(p_{out} = p_\mathcal{F} + 0.1 \cdot p_\mathcal{A}\))。
-
统计知识保持: 每阶段结束后用Welford在线算法存储类别级特征均值和方差(\(\mu_c, \sigma_c^2\)),下一阶段通过(a)真实特征蒸馏(当前数据过teacher和student head对齐KL散度)和(b)伪特征重放(从\(\mathcal{N}(\mu_c, \text{diag}(\sigma_c^2))\)采样伪特征蒸馏)双路保持分类器决策边界。
-
PUDD漂移检测: 监控prompt选择模式变化来检测域漂移——结合选择熵变化(短期波动刷新的z-score)和使用集变化(当前使用prompt集与滑动窗口历史的IoU)。漂移分数\(D\)按比例决定prompt池扩展量。
-
不确定性加权: 为5个损失项(CE、real蒸馏、pseudo重放、diversity、norm)各学一个log方差\(s_i\),自动平衡:\(\mathcal{L}_{total} = \sum_i (e^{-s_i}\mathcal{L}_i + s_i)\)。
损失函数 / 训练策略¶
5项损失通过不确定性加权自动平衡。辅助损失包括:diversity loss(惩罚高频共激活prompt间的相似性)和norm正则(限制active prompt值只做残差)。AdamW, lr=1e-3, cosine schedule, 100 epochs, early-stop patience 5。
实验关键数据¶
| 基准 | 方法 | AvgACC↑ | AvgF↓ |
|---|---|---|---|
| DR | OS-Prompt++ | 0.769 | 0.113 |
| DR | Coda-Prompt | 0.688 | 0.140 |
| DR | Residual SODAP | 0.850 | 0.047 |
| Skin Cancer | OS-Prompt++ | 0.725 | 0.063 |
| Skin Cancer | Residual SODAP | 0.760 | 0.031 |
| CORe50 (11-stage) | DER++ | 0.994 | 0.061 |
| CORe50 (11-stage) | Residual SODAP | 0.995 | 0.003 |
消融实验要点¶
- Query Enhancer去掉后AvgACC降4.2pp——查询增强对可靠prompt选择至关重要
- Diversity loss去掉后AvgACC降3.2pp且AvgF升2.5pp——防止prompt坍塌和保持旧知识都需要它
- 蒸馏+伪重放各贡献1.5~2.2pp准确率提升
- 组件间存在accuracy-forgetting trade-off:某些消融降低遗忘但牺牲准确率,完整模型在trade-off曲线最佳点
亮点¶
- Backbone×Classifier诊断分析清晰地揭示了PCL中被忽视的分类器级遗忘问题,是非常好的动机分析
- α-entmax巧妙地解决了Top-k(不可微)和Softmax(噪声累积)之间的困境——精确零权重+可微性兼得
- 统计伪特征重放极其轻量——只需每类存储均值和方差,用高斯采样即可回放
- 不确定性加权免去了5个损失权重的手动调参
- CORe50 11阶段仅0.003遗忘率,展示了在长序列域漂移下的极强稳定性
局限性 / 可改进方向¶
- 仅在域增量(DIL)设置上验证,未扩展到类增量(CIL)
- 高斯假设的伪特征可能在特征分布非高斯时失效
- PUDD的超参(窗口大小、阈值、D_max等)较多,虽不需要手动调损失权重但引入了其他超参
- Prompt池持续扩展(60→84→94),长期部署下参数量会线性增长
与相关工作的对比¶
- OS-Prompt++: 同是PCL方法但无分类器保持机制,DR上AvgACC 0.769 vs 0.850
- Coda-Prompt: 正交正则化的prompt学习,DR上AvgACC仅0.688
- DER++: 需要replay buffer(存储过去数据),即使存数据仍不如本文无数据存储方案
- Online EWC: 经典正则化方法,AvgF 0.174远高于本文0.047
启发与关联¶
- "分类器级遗忘"的insight可推广到其他CL方法——不仅是PCL,任何使用共享分类器的CL方法都可能存在这个问题
- α-entmax稀疏选择机制可用于其他需要从大池中选取子集的场景(如MoE路由)
- 统计伪特征重放的思路可用于任何禁止数据存储的隐私敏感场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 分类器保持+prompt适应的联合框架有新意,但各组件单独看并不全新(α-entmax、KD、不确定性加权都是已有技术)
- 实验充分度: ⭐⭐⭐⭐ 三个基准、完整消融、cross-composition诊断、prompt可视化分析全面
- 写作质量: ⭐⭐⭐⭐ 动机分析(Fig.1)有说服力,方法描述详尽且有数学严谨性
- 价值: ⭐⭐⭐⭐ 在无数据存储的医学影像域增量学习这一实用场景有直接价值