跳转至

Autoencoder-Based Hybrid Replay for Class-Incremental Learning

会议: ICML 2025
arXiv: 2505.05926
代码: 论文附带源码,将开源
领域: 图像生成
关键词: 类增量学习, 混合重放, 自编码器, 斥力算法, 潜空间压缩

一句话总结

提出基于自编码器的混合重放策略(AHR),利用混合自编码器(HAE)将样本压缩存储在潜空间中而非原始输入空间,结合带电粒子系统能量最小化(CPSEM)和斥力算法(RFA)增量嵌入新类质心,在最坏情况下将内存复杂度从 \(\mathcal{O}(t)\) 降低到 \(\mathcal{O}(0.1t)\),同时保持 SOTA 性能。

研究背景与动机

类增量学习(CIL)面临两个核心挑战:灾难性遗忘(CF)任务混淆(TC)。已有策略各有缺陷:

  • Exemplar Replay(样本重放):效果最好但内存开销为 \(\mathcal{O}(t)\),需存储大量原始数据样本,扩展性差
  • Generative Replay(生成重放):内存小但生成的伪数据质量差,导致遗忘严重;且将判别模型增量学习的难题转嫁给了生成模型的增量学习
  • Generative Classifier(生成分类器):需要不断扩展架构,内存为 \(\mathcal{O}(t)\),无法在一个模型内整合不同任务特征

核心观察:\(\mathcal{O}(t)\) 的内存或计算复杂度是不可避免的——每学习一个新任务,必须有机制监控先前任务对网络权重施加的 \(t-1\) 个约束,否则知识将被覆盖。因此关键问题是:能否在保持 \(\mathcal{O}(t)\) 计算复杂度的同时,大幅降低内存复杂度?

策略类型 内存复杂度 计算复杂度 性能
Generative Replay \(\mathcal{O}(cte)\) \(\mathcal{O}(t)\) non-SOTA
Generative Classifier \(\mathcal{O}(t)\) \(\mathcal{O}(cte)\) non-SOTA
Exemplar Replay \(\mathcal{O}(t)\) \(\mathcal{O}(t)\) SOTA
Hybrid Replay (AHR) \(\mathcal{O}(0.1t)\) \(\mathcal{O}(t)\) SOTA

方法详解

整体框架

AHR 每次新任务 \(T_\ell\) 到来时执行三个核心步骤:

  1. CCE Placement(类质心嵌入放置):利用 RFA 基于 Euler-Lagrange 方程求解最优位置,为新任务的类在潜空间中分配质心位置 \(\mathcal{P}_\ell = \{p_\ell^j\}_{j=1}^{J_\ell}\)
  2. HAE Train(混合自编码器训练):复制上一步模型为新模型,在新任务数据 + 从旧记忆解码出的回放数据上联合训练,优化重建损失 + 聚类损失 + 蒸馏损失
  3. Memory Population(记忆填充):基于 Herding 策略,在潜空间中选择并存储最具代表性的编码样本

关键区别:AHR 不存储原始数据,而是将数据 编码到潜空间 后存储低维向量。解码器被设计为 记忆原始数据对(即确定性重建),而非像 VAE 那样追求泛化生成新样本。

关键设计

混合自编码器 (HAE)

HAE 同时具备判别和生成能力:

  • 编码器 \(\phi: \mathbb{R}^n \to \mathbb{R}^m\):将输入数据映射到低维潜表示
  • 解码器 \(\psi: \mathbb{R}^m \to \mathbb{R}^n\):从潜表示重建数据,被设计为 记忆 \((z, x)\) 对而非泛化

设计决策:故意不使用 VAE,因为目标不是生成新图像,而是精确记忆训练数据的编解码映射,使解码器能以极小损失恢复原始数据。

带电粒子系统能量最小化 (CPSEM) 与斥力算法 (RFA)

通过物理类比实现潜空间中类质心的最优分布。将每个类质心嵌入(CCE)视为带电粒子,利用库仑相互作用能建模:

\[\mathcal{U} = \sum_{i,j=1}^{I,J_i} \frac{(q_i^j)^2}{2} \sum_{i',j' \neq i,j} \frac{1}{\|p_{i'}^{j'} - p_i^j\|}\]

每个粒子还具有动能 \(\mathcal{K}_i^j = \frac{1}{2}m_i^j \|v_i^j\|^2\)。优化目标是最小化总能量 \(\mathcal{E} = \mathcal{U} + \mathcal{K}\),通过变分法和 Euler-Lagrange 方程求解粒子运动方程:

\[\frac{d}{dt}\left(\frac{\partial \mathcal{L}}{\partial v_i^j}\right) = \frac{\partial \mathcal{L}}{\partial p_i^j}\]

RFA 核心流程: 1. 初始化新类质心位置为编码器当前输出的均值 2. 迭代计算所有质心间的斥力向量 3. 按力更新速度和位置,直到系统能量收敛

关键优势:与 iCaRL 不同,AHR 的 CCE 一旦放置便不再改变,保证了潜空间结构的稳定性。

测试阶段分类

直接在潜空间中使用欧氏距离分类:

\[\text{argmin}_{i,j} \|\phi(w_I^*, x) - p_i^j\|\]

无需解码即可完成推理——编码器将样本映射到潜空间后,找距离最近的类质心。

损失函数 / 训练策略

总损失由三部分组成:

1. HAE 损失(公式1)

\[L(x, \hat{x}, z) = \underbrace{\sum \|x_i^{j,k} - \hat{x}_i^{j,k}\|^2}_{L_x: \text{重建损失}} + \lambda \underbrace{\sum \|z_i^{j,k} - p_i^j\|^2}_{L_z: \text{聚类损失}}\]
  • \(L_x\):最小化输入与重建数据的 L2 距离
  • \(L_z\):将同类样本在潜空间中拉近到对应 CCE 的位置,\(\lambda\) 为超参数

2. 蒸馏损失(数据正则化)

\[\|\phi(w_{\ell-1}, D) - \phi(w_\ell, D)\| + \|\psi(v_{\ell-1}, \phi(w_{\ell-1}, D)) - \psi(v_\ell, \phi(w_\ell, D))\|\]

分别约束编码器和解码器输出的前后一致性,防止灾难性遗忘。

3. 训练细节: - 每个 SGD 迭代中,\(1/\ell\) 来自新任务数据,\((\ell-1)/\ell\) 从记忆即时解码获得 - 采用平衡训练(来自 EEIL) - 使用固定样本记忆(非增长式),每类样本数随任务增加而减少 - 优化器为 Adam - 编码器:MNIST 用 2 层 400 ReLU 全连接网络;大数据集用 ResNet-32 - 解码器:大数据集用 3 层 CNN

实验关键数据

主实验

在5个基准上对比10+个基线方法(固定计算量、匹配参数量、等内存大小):

数据集 指标 AHR 之前SOTA (REMIND+) 提升
MNIST(5/2) Accuracy 97.53 95.62 +1.91
BalancedSVHN(5/2) Accuracy 93.02 92.15 +0.87
CIFAR-10(5/2) Accuracy 77.12 75.49 +1.63
CIFAR-100(10/10) Accuracy 54.43 52.36 +2.07
miniImageNet(20/5) Accuracy 48.09 45.02 +3.07

AHR 在所有 5 个基准上均为最优,尤其在最难的 miniImageNet 上优势最大(+3.07%)。

消融实验

配置 CIFAR-100 miniImageNet 说明
AHR (完整) 54.43 48.09 编码压缩 + RFA
AHR-lossy-mini 50.29 42.39 同等样本数,有损压缩
AHR-lossless-mini 50.85 42.88 同等样本数,无损
AHR-lossless 56.71 49.70 同等多样本数,无损(上界)
AHR-contrastive 51.98 44.60 替换 RFA 为对比损失
AHR-GMM 49.48 42.52 替换 RFA 为 GMM

关键发现

  1. 压缩带来的多样性收益远大于质量损失:AHR-lossy-mini → AHR 的提升 (+4.14/+5.70) 远大于 AHR → AHR-lossless 的提升 (+2.28/+1.61),说明 "更多解码样本" 比 "完美样本" 更重要
  2. RFA 显著优于替代方案:RFA vs 对比损失 (+2.45/+3.49),RFA vs GMM (+4.95/+5.57),因为 RFA 能以最小位移系统性地嵌入新类质心
  3. 小内存下优势更突出:内存越小,AHR 与基线的差距越大
  4. 解码器开销极低:3层CNN解码器参数仅 1.4-1.8M,相比存储原始样本的内存可忽略不计;相同总内存预算下 AHR 可存储 7-10倍 更多的编码样本
  5. 资源效率最优:在 CIFAR-100 上,AHR 用 462min / 1.4M decoder + 4.6M exemplar 达到 54.43%,BiC 用 473min / 6M 仅 52.12%

亮点与洞察

  • 物理启发的潜空间组织:将类质心类比为带电粒子,利用库仑排斥力实现增量任务间的自然分离——比对比学习和 GMM 都更有效,且质心一旦放置不再改变
  • "记忆式"解码器 vs 生成式:巧妙的设计决策——解码器不追求泛化而追求精确记忆,避免了生成重放中伪数据质量差的问题
  • 在潜空间直接分类:无需解码后再分类,推理效率高且避免了解码误差传播
  • 与现有 exemplar replay 正交:AHR 作为压缩层可直接插入到已有的 exemplar replay 策略中

局限与展望

  1. 解码器质量仍有上限:AHR-lossless 始终优于 AHR,说明有损压缩是性能瓶颈;更强的解码器架构(如 Transformer decoder)可能进一步缩小差距
  2. 仅在图像分类验证:未在 NLP、时序等模态上探索
  3. RFA 计算开销:CPSEM 的粒子模拟在类数量极多时可能变慢(\(O(C^2)\) 的力计算)
  4. 固定 CCE 的刚性:质心一旦放置不再调整,可能在超长任务序列中导致潜空间拥挤
  5. 未探索 pre-trained backbone:实验全部使用从头训练的网络,结合预训练模型可能带来更大提升

相关工作与启发

  • iCaRL:AHR 借鉴了其样本重放+蒸馏损失的框架,但用潜空间存储替代原始空间存储
  • REMIND/REMIND+:同属混合重放,但在中间特征层压缩且解码后分类;AHR 在潜空间直接分类更高效
  • i-CTRL:用 Linear Discriminative Representation 组织潜空间,AHR 的 RFA 更优
  • 对持续学习的启发:数据多样性(更多样本)可能比数据质量(更精确的样本)更重要——这一发现对记忆有限的场景具有普遍指导意义

评分

  • 新颖性: ⭐⭐⭐⭐ - 物理启发的 RFA 用于潜空间组织是新颖的,但混合重放框架已有先例
  • 实验充分度: ⭐⭐⭐⭐⭐ - 5个基准、10+基线、详细消融和资源分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ - 结构清晰,算法伪代码完整,但符号较密集
  • 价值: ⭐⭐⭐⭐ - 方法实用且可嵌入现有策略,但限于图像分类场景

相关论文