Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective¶

会议: ICML2025
arXiv: 2506.03951
代码: byyx666/Dual-Arch
领域: 持续学习 (Continual Learning)
关键词: 持续学习, 稳定性-可塑性权衡, 网络架构设计, 知识蒸馏, 双架构框架

一句话总结¶

揭示了持续学习中稳定性与可塑性之间在架构层面的固有冲突——宽浅网络稳定性好、深窄网络可塑性强——并提出 Dual-Arch 框架，用两个专用轻量架构分别负责稳定性和可塑性，通过知识蒸馏协同，实现参数量减少最高 87% 的同时提升 CL 性能。

研究背景与动机¶

持续学习（CL）的核心挑战是灾难性遗忘：在学习新任务时，网络会迅速遗忘旧知识。现有方法（重放、正则化、架构扩展）主要在参数层面平衡稳定性与可塑性，却忽略了网络架构本身对这一权衡的影响。

已有先驱工作（Mirzadeh et al., 2022）指出宽浅网络整体 CL 性能更好（主要贡献于稳定性），但深度网络在表示学习能力上更强（利于可塑性）。这引发一个关键问题：在给定参数量约束下，稳定性与可塑性是否在架构层面也存在固有矛盾？

作者通过对比 ResNet-18 与其等参宽浅变体验证了这一假设：

ResNet-18（深窄）：新任务准确率更高（可塑性好），但遗忘更严重
宽浅变体（10层, 96通道）：遗忘更低（稳定性好），但新任务性能下降

这表明单一架构无法同时兼顾两个目标，现有方法使用统一架构的做法本身就限制了 CL 上限。

方法详解¶

核心思想：Dual-Arch 框架¶

Dual-Arch 是一个即插即用的 CL 框架，核心思路是将稳定性和可塑性分配给两个独立的专用网络：

Pla-Net（可塑性网络）：深而窄的架构，专注学习新知识
Sta-Net（稳定性网络）：宽而浅的架构，负责保留旧知识并整合新知识

架构设计（基于 ResNet-18 改造）¶

网络	深度	宽度	特殊设计	参数量
ResNet-18（原始）	18层	64通道	GAP → 1×1	11.23M
Sta-Net	半数残差块	64通道	AvgPool → 2×2 输出	~7M
Pla-Net	18层	42通道	保持原始结构	~7M

两个网络参数量之和（~15M）仍小于原始 ResNet-18（~22M），实现了压缩。

训练流程¶

对于每个新任务 \(k\)，分两阶段顺序训练：

阶段一：训练 Pla-Net 仅用分类损失学习当前任务数据，不关心遗忘：

\[L_{plastic} = L_{CE}(x, y; \phi_k) = -\log \frac{\exp(o_y)}{\sum_{m=1}^{N^k} \exp(o_m)}\]

阶段二：训练 Sta-Net 冻结 Pla-Net 作为教师模型，通过知识蒸馏将新知识转移给 Sta-Net，同时结合 CL 方法保留旧知识：

\[L_{stable} = \alpha \cdot L_{CE} + (1-\alpha) \cdot L_{KD} + L_{CL}\]

其中 \(\alpha=0.5\) 平衡硬标签损失和蒸馏损失，\(L_{CL}\) 是所用 CL 方法自身的损失项。

知识蒸馏损失 \(L_{KD}\) 计算教师（Pla-Net）与学生（Sta-Net）软输出间的 KL 散度：

\[L_{KD} = -\sum_{i=1}^{N^k} P_T^i \log P_S^i, \quad P_T = \text{SoftMax}(O_T / t), \quad P_S = \text{SoftMax}(O_S / t)\]

其中 \(t\) 为温度因子，控制软输出的平滑度。

推理阶段：仅使用 Sta-Net，Pla-Net 不参与推理，因此推理开销反而更小。

实验关键数据¶

主实验：与5种 SOTA CL 方法结合（Tab. 2）¶

在 CIFAR-100 和 ImageNet-100 上（10/20 任务划分），Dual-Arch 作为插件一致提升所有基线方法：

方法	参数量减少	LA 最大提升	AIA 最大提升	遗忘降低
iCaRL + Dual-Arch	↓33%	+3.10%	+2.17%	↓7.69%
WA + Dual-Arch	↓33%	+8.24%	+6.09%	↓7.32%
DER + Dual-Arch	↓52%	+5.69%	+3.67%	↓5.55%
Foster + Dual-Arch	↓32%	+7.70%	+7.62%	↓11.28%
MEMO + Dual-Arch	↓41%	+10.29%	+5.09%	↓11.62%

MEMO + Dual-Arch 表现最突出：LA 提升 10.29%，FAF 降低 11.62%，参数量减少 41%。

消融实验（Tab. 3, CIFAR-100/10, AIA）¶

配置	平均 AIA	与完整方案差距
Sta-Net + Pla-Net（完整）	72.92%	—
仅 Sta-Net（无辅助网络）	70.29%	-2.63%
Pla-Net + Pla-Net（统一架构）	71.18%	-1.74%
Sta-Net + Sta-Net（统一架构）	72.27%	-0.65%
Pla-Net + Sta-Net（角色反转）	71.24%	-1.68%

消融结果表明：(1) 双网络协作比单网络好 2.63%；(2) 专用架构比统一架构好 0.65~1.74%；(3) 角色分配不可互换。

参数效率¶

Dual-Arch 在参数减少 87% 的极端情况下仍可超越原始基线（DER 上 AIA +0.90%，Foster 上 +1.94%）。

计算效率¶

指标	Sta-Net	Pla-Net	合计	ResNet-18
FLOPs	255M	241M	496M	558M

训练总 FLOPs 更少，推理仅用 Sta-Net（255M vs 558M），计算量降低 54%。但训练时间因串行训练增加 1.39×~1.77×。

亮点与洞察¶

新颖视角：首次系统揭示 CL 中稳定性-可塑性在架构层面的内在冲突，将权衡从参数维度拓展到架构维度
即插即用：Dual-Arch 可无缝集成到 iCaRL/WA/DER/Foster/MEMO 等主流方法，普适性强
参数高效：以更少参数实现更好性能，不是简单叠加两个大模型，而是用两个轻量专用网络替代一个大网络
推理无开销：推理阶段仅用 Sta-Net，FLOPs 仅为原始的 46%
实验设计规范：公平对比了多方法×多数据集×多任务划分，消融实验彻底验证了各组件贡献

局限与展望¶

训练时间增加：双网络串行训练导致 1.39×~1.77× 训练开销，无法并行化是硬伤
架构设计依赖经验：Sta-Net/Pla-Net 的具体设计（层数、通道数）基于 ResNet 手工调整，缺乏自动化搜索
仅验证 ResNet 系列：未在 ViT、ConvNeXt 等现代架构上验证，"深窄=可塑、宽浅=稳定"的结论泛化性待考
仅 Class-IL 场景：未验证 Task-IL 和 Domain-IL 场景
蒸馏策略单一：仅用 logit-level KD，未探索特征蒸馏、关系蒸馏等更丰富的知识转移方式
温度因子 \(t\) 和平衡系数 \(\alpha\) 均用默认值（\(\alpha=0.5\)），未做充分调参分析

评分¶

新颖性: ⭐⭐⭐⭐ — 架构层面的稳定性-可塑性权衡是全新且有价值的研究视角
实验充分度: ⭐⭐⭐⭐ — 5种方法×4个基准×消融+效率分析，覆盖全面
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，从观察→问题→方案→验证贯通
价值: ⭐⭐⭐⭐ — 即插即用框架有实用价值，但泛化到现代架构待验证