PANDA: Patch and Distribution-Aware Augmentation for Long-Tailed Exemplar-Free Continual Learning¶
会议: AAAI 2026
arXiv: 2511.09791
代码: GitLab
领域: 持续学习 / 长尾分布 / 数据增强
关键词: Exemplar-Free Continual Learning, Long-Tailed Distribution, CLIP-guided Augmentation, Dual-Level Imbalance, Distribution Smoothening
一句话总结¶
提出 PANDA 框架,通过 CLIP 引导的语义 patch 移植实现任务内类别平衡,并借助可学习的分布平滑机制缓解任务间分布偏移,以即插即用方式提升基于预训练模型的无样本存储持续学习在长尾场景下的性能。
研究背景与动机¶
问题定义¶
无样本持续学习(Exemplar-Free Continual Learning, EFCL)禁止存储历史任务数据,因此极易发生灾难性遗忘。近年来,利用预训练模型(PTM)的强大特征表示能力使 EFCL 方法取得了长足进步,但现有方法几乎都假设各任务的类别分布是均匀的。
现实挑战:双级不均衡¶
论文发现真实数据流普遍存在双级不均衡(Dual-Level Imbalance, DLI):
数据集级不均衡:部分类别在整体数据集中占据主导地位,其余类别稀缺,由指数衰减因子 \(\rho\) 控制。
任务级不均衡:单个任务内部的类别分布可能与全局趋势相反或更极端,由 \(\rho^*\) 控制。
例如:野外相机陷阱中鹿和兔子图像成千上万,而掠食者极其稀少;迁徙期鹿的图像会暂时性暴增。医学影像中肺炎常见但尘肺偶尔会反超。这种"任务内不均衡 + 任务间分布漂移"的共存问题此前几乎未被探索。
现有方法的不足¶
- Prompt 方法(L2P、CodaPrompt、DualPrompt、DAP):仅优化少量参数,在严重不均衡场景下难以捕获尾部类别的多样性。
- 表示方法(SimpleCIL、RanPAC、MOS 等):依赖最近均值分类器的原型更新,长尾分布偏移使得原型不可靠。
- 已有数据增强方法(CutMix、Mixup、Remix):未针对持续学习设计,忽视整体分布未知的约束。
方法详解¶
整体框架¶
PANDA 是一个无需训练的去偏增强框架,可无缝集成到任何基于 PTM 的 EFCL 方法中。核心思路:利用头部类(高频类)图像的背景多样性来丰富尾部类(低频类)的训练样本。具体包含两个互补机制:
- 任务内平衡(Intra-task Balancing):利用冻结 CLIP 编码器在头/尾类图像之间识别并移植语义相关的 patch。
- 任务间平滑(Inter-task Smoothening):利用前一任务的分布统计量自适应调节当前任务的分布边界。
关键设计¶
1. CLIP 引导的语义 Patch 移植¶
核心思路:将尾部类图像中最具类别语义的区域提取出来,移植到头部类图像的背景区域,从而合成新的尾部类训练样本。
操作流程: - 将每张图像划分为 \(N \times N\) 个不重叠 patch - 使用冻结的 CLIP 文本编码器和视觉编码器分别对类别标签(转化为伪句子 "Image of a {label}")和每个 patch 计算嵌入 - 通过余弦相似度 \(S_i = \frac{z_i \cdot z_t}{\|z_i\| \|z_t\|}\) 选出与类别语义最相关的 top-\(N/2\) 个 patch - 设置相似度置信阈值 0.45,防止跨类污染 - 用二值掩码将尾部类的高语义 patch 嫁接到头部类图像上:
其中 \((M^h)'\) 是头部类掩码的反转,\(M^t\) 是尾部类的语义掩码。
设计动机:图像通常由感兴趣对象与背景组成,背景对分类无贡献。通过将尾部类的语义核心区域移植到头部类的背景中,既扩充了尾部类的样本多样性,又不会引入类别混淆。合成后还会应用翻转、裁剪、颜色抖动和高斯模糊等标准增强以防过拟合。
2. 自适应分布平滑(Adaptive Distribution Smoothening)¶
核心思路:维护前一任务的最大/最小样本数统计量,与当前任务混合以缓解任务间分布漂移。
系数 \(\beta\) 根据前后任务性能差异动态调整: - 当前任务性能下降 → 降低 \(\beta\),加速适应 - 当前任务性能提升 → 升高 \(\beta\),强化稳定性 - 性能不变 → \(\beta\) 保持
设计动机:在持续学习中,任务间的分布漂移会导致分类器偏差。通过引入前一任务的分布先验,可以平滑当前任务的极端分布,减小整体的平均样本数差距,使冻结 PTM 的学习更加公平。
损失函数 / 训练策略¶
PANDA 本身是 training-free 的(不引入额外可训练参数),仅在数据预处理阶段操作。增强后的数据被送入原有的持续学习 pipeline 进行训练。唯一的超参数是: - patch 数量 \(N\)(按 ViT patch 尺寸确定) - 余弦相似度置信阈值(0.45) - 头尾类平均样本差距阈值 \(q\)
实验关键数据¶
主实验(单级不均衡 SLI, \(\rho = 0.01\))¶
| 方法 | CIFAR100-LT Acc(%) | CIFAR100-LT For(%) | iNaturalist Acc(%) | iNaturalist For(%) |
|---|---|---|---|---|
| L2P | 73.34 | 7.87 | 78.41 | 4.72 |
| L2P + PANDA | 81.32 (+7.98) | 6.08 (-1.79) | 85.47 (+7.06) | 3.37 (-1.35) |
| CodaPrompt | 76.52 | 7.55 | 83.85 | 4.58 |
| CodaPrompt + PANDA | 87.49 (+2.94) | 4.61 (-2.94) | 90.45 (+6.60) | 3.30 (-1.28) |
| RanPAC | 90.35 | 5.22 | 94.35 | 2.38 |
| RanPAC + PANDA | 91.91 (+1.56) | 4.38 (-0.84) | 95.70 (+1.35) | 1.97 (-0.41) |
| CoFiMA | 93.05 | 5.57 | 94.55 | 3.88 |
| CoFiMA + PANDA | 93.83 (+0.78) | 4.91 (-0.66) | 93.56 | 2.98 (-0.90) |
| MOS | 91.60 | 4.69 | 95.49 | 2.77 |
| MOS + PANDA | 92.04 (+0.80) | 4.48 (-0.21) | 95.85 (+0.36) | 2.63 (-0.14) |
在所有 14 种 EFCL 方法上,PANDA 均带来了准确率提升或遗忘率下降。Prompt 方法上的提升最为显著(L2P 提升 ~7-8%),说明长尾场景对参数有限的 prompt 方法冲击最大。
双级不均衡实验(DLI)¶
| 方法 | \(\rho^*=0.05, *=2\) Acc | \(\rho^*=0.05, *=3\) Acc | \(\rho^*=0.05, *=4\) Acc |
|---|---|---|---|
| CoFiMA | 93.97 | 92.18 | 90.39 |
| CoFiMA + PANDA | 94.38 (+0.41) | 93.25 (+1.07) | 92.05 (+1.66) |
| MOS | 93.54 | 92.10 | 91.69 |
| MOS + PANDA | 92.22 | 93.21 (+1.11) | 92.82 (+1.13) |
在 DLI 设置下,任务级不均衡叠加数据集级不均衡使问题更具挑战性,PANDA 通过分布平滑仍能持续改善性能。
消融实验:与其他增强方法对比(RanPAC, CIFAR100-LT)¶
| 增强方法 | SLI Acc(%) | SLI For(%) | DLI Acc(%) | DLI For(%) |
|---|---|---|---|---|
| 无增强(baseline) | 84.39 | 5.82 | 85.07 | 5.97 |
| CutMix | 85.43 | 7.97 | 84.03 | 6.77 |
| Mixup | 81.33 | 8.03 | 77.29 | 7.06 |
| Remix | 86.50 | 7.55 | 86.51 | 5.73 |
| Con-CutMix | 87.27 | 6.48 | 84.19 | 6.01 |
| PANDA (Ours) | 90.31 | 5.03 | 90.08 | 4.52 |
PANDA 大幅领先所有传统增强方法。CutMix/Mixup 不考虑分布信息,甚至不如 baseline;Con-CutMix 在 SLI 下接近但在 DLI 下崩溃。
关键发现¶
- 语义 patch 选择优于注意力掩码:CLIP 引导的语义掩码一致优于基于 DinoV2 注意力亲和力的掩码(APART 上准确率 83.39 vs 80.87),因为语言引导的语义对齐能更精准地隔离代表性区域。
- 资源开销可控:PANDA 带来的 GPU 显存增加通常不超过 600MB,运行时间增加不超过 0.5 小时。
- 稳定性-可塑性权衡:在 iNaturalist 上 CoFiMA + PANDA 准确率略降但遗忘率大幅下降,反映了已近性能上限时两者的此消彼长。
亮点与洞察¶
- 即插即用设计:PANDA 是纯数据增强模块,无额外可训练参数,可无缝集成到任何 PTM-based EFCL 方法,工程实用性极高。
- 双级不均衡形式化:首次形式化定义了 DLI 设置,为持续学习的不均衡研究提供了更贴近现实的评估框架。
- CLIP 的新应用场景:将 CLIP 的文本-图像对齐能力用于识别图像中的语义代表性区域,不同于常见的 zero-shot 分类或检索用法。
- 分布平滑的简洁优雅:仅维护上一任务的 min/max 统计量即可有效缓解任务间漂移,实现简单但效果稳健。
局限与展望¶
- 对 CLIP 质量的依赖:patch 选择质量完全取决于 CLIP 的特征对齐效果,换用不同 CLIP 变体可能带来性能波动。
- 仅处理图像分类:未探索在目标检测、语义分割等更复杂任务上的适用性。
- 阈值敏感性:余弦相似度阈值 0.45 是通过实验确定的,缺少理论指导,不同数据集可能需要调整。
- 尾部类样本极少时的 patch 质量:当尾部类只有 3 个样本时,可供移植的语义 patch 多样性有限。
- DLI 设置仅影响单个任务:\(\rho^*\) 仅作用于一个指定任务,更复杂的多任务同时不均衡场景未被考虑。
相关工作与启发¶
- CutMix/Mixup 系列在持续学习中效果有限,因为不考虑类别分布信息。
- DAP(AAAI 2024)虽然专门设计了双锚点机制应对不均衡,但头部类梯度仍然主导通用 prompt,尾部类信号太弱。
- 可以考虑将 PANDA 的思路扩展到其他模态(如文本、音频)的持续学习中。
- 分布平滑机制的思路可能对联邦学习中的数据异质性问题也有借鉴意义。
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 4 | DLI 形式化 + CLIP 引导 patch 移植的思路新颖 |
| 技术深度 | 3.5 | 方法简洁有效但技术复杂度不高 |
| 实验充分性 | 4.5 | 14 种方法 × 3 个数据集 × 两种不均衡设置,消融全面 |
| 写作质量 | 4 | 动机清晰,实验易读 |
| 实用性 | 5 | 即插即用,代码开源,工程友好 |
| 综合 | 4 | 务实的即插即用方案,实验充分,但理论深度一般 |
相关论文¶
- [ACL 2025] Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation
- [AAAI 2026] CATFormer: When Continual Learning Meets Spiking Transformers With Dynamic Thresholds
- [NeurIPS 2025] Finding Structure in Continual Learning
- [CVPR 2026] Elastic Weight Consolidation Done Right for Continual Learning
- [ICML 2025] BECAME: BayEsian Continual Learning with Adaptive Model MErging