Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers¶

会议: AAAI2026
arXiv: 2511.09926
代码: raoxuan98-hash/sldc
领域: model_compression
关键词: class-incremental learning, distribution drift, vision transformer, knowledge distillation, sequential fine-tuning

一句话总结¶

提出 Sequential Learning with Drift Compensation (SLDC)，通过学习潜在空间转换算子（线性/弱非线性）来补偿预训练 ViT 在类增量学习中因序列微调导致的分布漂移，结合知识蒸馏后性能接近联合训练上界。

背景与动机¶

近年来，基于预训练 ViT 的类增量学习（CIL）研究表明，序列微调（SeqFT）后用高斯近似分布精炼分类器是一种有效的策略（如 SLCA/SLCA++）。然而，这一范式存在一个关键缺陷：序列优化共享 backbone 参数会导致分布漂移——之前任务学到的类特征分布与更新后模型的特征空间不再匹配，随着任务增加，分类器的效果逐渐退化。

现有工作大多通过蒸馏、模型集成、梯度投影等方式来"预防"表征漂移，而本文另辟蹊径，关注的是一旦漂移发生后如何补偿其负面影响。这一视角在 PTM-based CIL 中尚属新颖。

核心问题¶

分布漂移问题：SeqFT 在新任务上微调后，旧类的高斯分布（均值 \(\mu_c\)、协方差 \(\Sigma_c\)）不再与当前特征空间对齐，直接用旧分布采样合成特征来精炼分类器会产生偏差
非线性变换过拟合：直接用 MLP 学习前后特征空间的映射会过拟合，变换后的分布精度反而不如线性映射
样本有限性：exemplar-free 设定下无法保存旧任务数据，算子估计的样本多样性可能不足

方法详解¶

整体框架¶

SLDC 包含三个阶段： 1. 序列微调：使用 LoRA 对 ViT backbone 在当前任务上微调（可选添加蒸馏 → SeqKD） 2. 分布补偿：学习转换算子将旧类高斯分布对齐到新的特征空间 3. 分类器精炼：从补偿后的高斯分布中采样合成特征，训练统一分类器

潜在空间转换算子¶

定义转换算子 \(\mathcal{P}_{t-1 \to t}: \mathcal{F}_{t-1} \to \mathcal{F}_t\)，将任务 \(t-1\) 的特征空间映射到任务 \(t\) 的特征空间。理想情况下，该算子能将旧类高斯分布的一阶矩（均值）和二阶矩（协方差）正确传播到新空间。

实际场景中无法访问完整输入空间，因此仅用当前任务数据 \(\mathcal{D}_t\) 和前后两个冻结模型 \(\mathcal{F}_{t-1}\)、\(\mathcal{F}_t\) 来近似估计。

α₁-SLDC（线性变体）¶

对当前任务数据分别提取前后模型的特征矩阵，做 L2 归一化后，通过正则化最小二乘求解线性算子：

\[\mathbf{A}_t = \tilde{F}^t (\tilde{F}^{t-1})^\top \left( \tilde{F}^{t-1} (\tilde{F}^{t-1})^\top + \gamma_{\alpha_1} I_d \right)^{-1}\]

为应对小样本场景，进一步用启发式重加权平滑：\(\mathbf{A}_t = (1-w)\mathbf{A}_t + wI_d\)，其中 \(w = \exp(-n_t / (\alpha_{\text{temp}} d))\)。

对旧类高斯分布的补偿为闭式更新：\(\mu_c \leftarrow \mathbf{A}_t \mu_c\)，\(\Sigma_c \leftarrow \mathbf{A}_t \Sigma_c \mathbf{A}_t^\top\)。

α₂-SLDC（弱非线性变体）¶

假设理想转换算子介于纯线性和完全非线性之间，构造弱非线性变换：

\[\mathcal{T}(f) = c_1 \mathbf{A} f + c_2 \psi(f)\]

其中 \(c_1 + c_2 = 1\)，\(\mathbf{A}\) 为可学习矩阵，\(\psi(f)\) 为两层 ReLU MLP。优化目标加入正则项 \(\gamma_{\alpha_2}(c_1 - 1)^2\) 来控制非线性部分的贡献，防止过拟合。

由于弱非线性变换不再有闭式高斯传播公式，采用 Monte Carlo 采样估计补偿后分布：从旧高斯中抽 \(N \gg d\) 个样本，经 \(\mathcal{T}\) 变换后重新估计均值和协方差。

β₁/β₂-SLDC（蒸馏增强变体）¶

在微调阶段加入特征级知识蒸馏来约束表征更新：

\[\mathcal{L}_{\text{All}} = \mathcal{L}_{\text{CE}} + \gamma_{\text{kd}} \mathcal{L}_{\text{KD}} + \gamma_{\text{norm}} \mathcal{L}_{\text{Norm}}\]

蒸馏减轻表征漂移 + SLDC 补偿残余分布漂移，二者互补。

辅助无标签数据增强（ADE）¶

当任务数据有限时，可利用任意来源的无标签辅助数据来丰富转换算子的估计。ADE 不需要标签且不保存旧任务数据，与 exemplar-free CIL 框架兼容。

实验关键数据¶

在四个数据集（CUB-200、Cars-196、CIFAR-100、ImageNet-R）上进行 10-task CIL 评估，使用两种预训练 ViT-B/16（MoCo-V3 自监督 / ImageNet-21K 有监督）。

MoCo-V3 预训练的主要结果（Last-Acc）：

方法	CUB-200	Cars-196	CIFAR-100	ImageNet-R
Joint-Training（上界）	81.82	81.16	88.86	75.95
SeqFT（基线）	64.40	60.42	73.36	61.37
α₂-SLDC	78.98 (+14.58)	77.53 (+17.11)	81.75 (+8.39)	71.38 (+10.01)
β₂-SLDC	81.82 (+4.85)	80.10 (+6.23)	85.16 (+4.81)	73.01 (+6.08)
β₂-SLDC + ADE	82.32	80.61	86.12	73.14
SLCA++	75.48	69.71	84.77	69.01
CoFiMA	77.65	69.51	87.44	70.87

关键发现：

β₂-SLDC 在 CUB-200 上达到 81.82%，与联合训练完全持平
在所有数据集上，β-SLDC 与联合训练的差距仅在 +0.50% 到 -3.29% 之间
α₂-SLDC 相比 SeqFT 基线提升巨大（+8~17%），说明分布补偿极为有效
MLP 直接做转换（MLPDC）在有蒸馏时反而降低性能（如 CUB-200 下降 4.41%），验证了过拟合问题
ADE 在大多数场景下能进一步提升性能

亮点¶

视角新颖：不是预防漂移而是补偿漂移，在 CIL 领域是一种独特的思路
理论与实践结合好：弱非线性假设有 NTK 理论支撑，线性变体有闭式高斯传播的理论保证
性能接近联合训练上界：这是 CIL 研究的标志性结果，证明了 SeqFT + 分布补偿路线的可行性
方法通用性强：SLDC 可作为即插即用模块集成到现有 SeqFT 方法中
MLP 过拟合的观察有价值：揭示了分布补偿中非线性程度需要精心控制，弱非线性是更好的平衡点

局限性 / 可改进方向¶

高斯假设的局限：深层特征的分布未必是高斯的，对于多模态或长尾分布的类别，高斯近似可能不够准确
转换算子的任务数据依赖：若当前任务数据与旧任务数据分布差异极大，用当前任务数据估计的算子可能不适用于旧类
线性变体在细粒度数据集上效果有限：α₁-SLDC 在 Cars-196 上反而下降 7.75%（ImageNet-21K 预训练），说明线性假设不总成立
弱非线性中 MLP 结构固定：两层 ReLU MLP 的选择较为粗糙，更复杂的架构搜索可能有帮助
ADE 需要额外数据：虽然无需标注，但辅助数据的获取和选择仍需设计

与相关工作的对比¶

维度	SLCA/SLCA++	CoFiMA	RanPAC	SLDC
backbone 更新	低学习率/LoRA	模型平均	冻结	LoRA + 蒸馏
漂移处理	隐式（慢更新）	模型融合	无（冻结）	显式补偿算子
分类器精炼	高斯采样	高斯采样	随机投影	补偿后高斯采样
计算开销	低	中	低	中（需求解算子）
任务 ID 依赖	否	否	否	否

SLDC 的核心优势在于直接建模特征空间的演化，可与蒸馏互补，而非简单替代。

启发与关联¶

分布补偿思路可推广：除了高斯假设外，可以探索对更复杂分布（如混合高斯、normalizing flow）的补偿
弱非线性的设计哲学：在过拟合和欠拟合之间寻找平衡点的思路值得在其他领域借鉴（如域适应、迁移学习中的特征对齐）
与 prompt-based CIL 方法结合：SLDC 目前基于 SeqFT 路线，能否与 L2P/CODA-Prompt 等方法结合值得探索
接近联合训练的意义：这一结果暗示 CIL 的核心瓶颈并非遗忘本身，而是分布漂移没有被正确处理

评分¶

新颖性: ⭐⭐⭐⭐ （补偿漂移的视角新，弱非线性假设有独到见解）
实验充分度: ⭐⭐⭐⭐⭐ （4 数据集 × 2 预训练模型 × 多变体对比，实验设计严谨全面）
写作质量: ⭐⭐⭐⭐ （定义清晰、推导完整，符号较多但组织合理）
价值: ⭐⭐⭐⭐ （性能接近联合训练上界是里程碑式结果，方法可即插即用）