Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning¶

会议: CVPR2025
arXiv: 2603.12816
代码: 待确认
领域: medical_imaging
关键词: continual learning, domain-incremental learning, prompt-based learning, catastrophic forgetting, knowledge distillation, sparse selection

一句话总结¶

针对无任务 ID 和无数据回放的领域增量学习（DIL），提出 Residual SODAP 框架，通过 α-entmax 稀疏 prompt 选择与残差聚合、基于特征统计的伪回放蓏馏、prompt 使用模式漂移检测和不确定性加权，同时解决表示适配和分类器遗忘问题。在 DR、皮肤癌和 CORe50 上均达 SOTA。

研究背景与动机¶

持续学习核心挑战：灾难性遗忘在领域增量学习（DIL）中尤为严重——无任务 ID、不存储历史数据
现有 Prompt-based CL 的两个局限：
Prompt 选择方案不足：Top-k 硬选择限制表达力且不可微；Softmax 软选择让不相关 prompt 也施加影响导致噪声累积
忽视分类器结构：现有 PCL 方法主要关注 prompt 池设计来适配表示，但分类器层在域偏移下也存在不稳定性（如 cross-composition 诊断实验所示）
关键发现：通过 backbone × classifier 交叉组合分析（参照 Liu et al. 的诊断方法）发现，即使 backbone 表示通过 prompt 适配保持良好，分类器层的决策边界仍会随着域增量训练显著退化
出发点：需要一个框架同时解决 prompt 层的表示适配和分类器层的知识保持

方法详解¶

1. α-Entmax 残差 Prompt 选择¶

Query 增强：融合当前层 CLS token、初始 CLS token（全局上下文）和可学习记忆库的检索信号，通过 MHA + 瓶颈适配器生成增强 query
稀疏选择：用 α-entmax（α=1.5）替代 softmax，可以给低分 prompt 精确赋零权重，兼顾全 prompt 池利用和噪声抑制
残差结构：从 Stage 2 开始，prompt 池分为冻结集 F 和活跃集 A，分别独立做稀疏路由，最终以残差形式组合：p_out = p_F + 0.1·p_A，冻结集保留先验知识，活跃集仅做残差适配
辅助损失：多样性损失（惩罚高频共激活 prompt 间的相似性）+ 范数正则化（约束活跃 prompt 值仅作残差作用）

2. 统计知识保持（伪回放蒸馏）¶

每个阶段结束时，用 Welford 在线算法收集逐类特征统计（均值+方差），并冻结当前分类器头作为教师
多阶段训练时统计量通过 Welford 公式累积合并，单次遍历即可完成，内存高效
下一阶段训练时执行两种蓏馏：
实特征蓏馏：当前批次特征通过教师和学生头的 KL 散度对齐（温度 T=2.0）
伪特征回放：从存储的类统计中采样伪特征（重参数化技巧），用冻结教师和可训练学生头的 KL 散度对齐
类别均匀采样以缓解少数类欠表示，每批采样 K=B 个伪特征

3. Prompt 使用模式漂移检测（PUDD）¶

同时监控两个信号：(a) prompt 选择分布的熵变化（短期波动反映域变化），(b) 使用集合的结构偏移（IoU）
两个信号加权合成漂移分数 D_t（α=1.0, β=0.5），跨层跨批次平均后决定 prompt 池扩展规模
扩展量与漂移强度成正比：弱偏移仅增少量 prompt（E_min=10），强偏移大幅扩展（E_max=80）
扩展后现有活跃 prompt 移入冻结集，新增 prompt 成为新活跃集

4. 不确定性加权¶

采用 Kendall 等人的同方差不确定性加权，为每个损失项学习 log 方差 s_i
总损失：L_total = Σ(e^{-s_i}·L_i + s_i)，噪声大的损失自动降权

实验关键数据¶

基准设置¶

三个 DIL 场景：糖尿病视网膜病变（DR，3个域：APTOS→DDR→DRD）、皮肤癌（3个域：ISIC→HAM→DERM7）、CORe50（通用基准）
无数据回放、无任务 ID，全部结果取 3 次独立运行平均
评估指标：AvgACC（平均准确率）和 AvgF（平均遗忘量）

与 SOTA 对比¶

方法	DR AvgACC↑	DR AvgF↓	Skin AvgACC↑	Skin AvgF↓	CORe50 AvgACC↑	CORe50 AvgF↓
OS-Prompt++	0.769	0.113	0.725	0.063	0.983	0.014
Coda-Prompt	0.688	0.140	0.713	0.041	0.974	0.056
DER++	0.607	0.288	0.722	0.099	0.994	0.061
Residual SODAP	0.850	0.047	0.760	0.031	0.995	0.003

DR 场景：AvgACC 较次优（OS-Prompt++ 0.769）提升 8.1pp，AvgF 从 0.113 降至 0.047
皮肤癌场景：AvgACC 0.760 最优，AvgF 0.031（Dual-Prompt 的 0.012 更低但其 AvgACC 仅 0.637，准确率-遗忘权衡不佳）
CORe50：几乎完美（AvgACC 0.995，AvgF 0.003），证明方法在通用域同样有效

消融实验（DR）¶

去除 Query Enhancer：AvgACC 下降 4.2pp（影响最大的单组件）
去除 Residual（退化为 SODAP）：AvgACC 下降 1.9pp，AvgF 下降 2.0pp
去除伪回放：AvgACC 下降 1.5pp
去除蒸馏：也导致性能下降
PUDD 控制 prompt 池从 60→84→94 动态扩展，扩展后无冗余 prompt

亮点¶

全面设计：同时解决 prompt 选择噪声、分类器遗忘、域漂移检测三个维度的问题，而非仅解决单一矛盾
α-entmax 稀疏选择：在保留全 prompt 池可微优化的同时精准抑制无关 prompt，比 Top-k（不可微）和 Softmax（噪声累积）都优
无数据伪回放：仅存储逐类均值和方差（每类仅 2D 向量，极低存储开销），通过重参数化采样实现知识保持
PUDD 自动扩展：基于使用模式而非固定规则检测域漂移，扩展量自适应，避免容量浪费或不足
通用性：在医学影像（DR、皮肤癌）和通用视觉（CORe50）上均达 SOTA，证明方法不限于特定领域

局限性¶

实验场景较短（仅 3 个域），未验证长序列（10+ 域）下的可扩展性，prompt 池可能持续膨胀导致内存和计算负担
α 和 λ_r 等超参数（α=1.5，λ_r=0.1）固定设置，未探索不同场景的敏感性分析
基于冻结 ViT backbone（预训练 ImageNet-21K），方法对 backbone 架构和预训练数据的依赖性未探讨
伪回放假设特征分布为对角高斯，对复杂多模态分布可能不够准确，尤其在域间特征重叠时
不确定性加权的 clamp 范围 [-3, 6] 为经验选择，缺乏理论指导
PUDD 的超参数（滑动窗口 W=100，D_max=5.0，阈值 τ_s=0.01）未做充分灵敏度分析
与多头分类器方法的本质区别值得更深入讨论——本文方案虽不需要 Task-ID 但需要漂移检测

评分¶

新颖性: 4/5 — α-entmax 残差 prompt 选择和 PUDD 漂移检测是有意义的创新点，分类器知识保持填补了 PCL 的盲区
实验充分度: 4/5 — 三个基准（2个医学+1个通用）、全面消融和可视化分析，但场景长度有限（仅3域）
写作质量: 4/5 — 结构清晰、公式准确，交叉组合诊断分析有说服力，但部分符号较密集
价值: 4/5 — 为无数据无 Task-ID 的 DIL 提供了一个系统且实用的解决方案，对医学影像持续学习有直接应用价值