Exploiting Task Relationships in Continual Learning via Transferability-Aware Task Embeddings¶
会议: NeurIPS 2025
arXiv: 2502.11609
代码: GitHub
领域: others (持续学习 / 迁移学习)
关键词: 持续学习, task embedding, 可迁移性, hypernetwork, H-score, 灾难性遗忘, LoRA
一句话总结¶
提出基于 H-score 可迁移性度量的任务嵌入(H-embedding),并将其嵌入超网络框架,通过在嵌入空间中显式建模任务间关系来指导持续学习中的参数生成,在 rehearsal-free 设定下取得 SOTA 最终准确率。
研究背景与动机¶
持续学习(Continual Learning, CL)要求模型依次学习一系列任务,核心挑战是灾难性遗忘(catastrophic forgetting):学新任务会损害旧任务的性能。现有方法主要分三类:
回放类(rehearsal):存储旧样本用于重放,但有隐私和存储开销问题
正则化类:约束参数更新以保护旧知识,但可能牺牲新任务的适应性
架构类:分离任务专属和共享组件,但随任务数增长面临扩展性问题
上述方法普遍关注模型层面的操作,而忽略了一个更根本的问题:任务之间的关系。如果能够捕获并利用任务间的可迁移性信息,就能更好地实现正向迁移(forward transfer)和反向迁移(backward transfer)。
作者观察到:
- 任务可迁移性度量(transferability metrics)天然可以衡量任务间的兼容性
- 现有利用可迁移性的方法(如 Ermis et al., 2022)依赖存储旧模型和样本,与 rehearsal-free 设定不兼容
- 需要一种在线、高效、不需回访旧数据的方式来编码任务关系
方法详解¶
整体框架¶
框架由三个核心组件构成:
- H-embedding:基于 H-score 可迁移性度量的任务嵌入,在每个新任务训练前在线计算
- 超网络(Hypernetwork):以任务嵌入为输入,生成对应任务的模型参数
- 编码器-解码器引导模块:将 H-embedding 信息注入超网络的中间表示
工作流程:当学习第 \(j\) 个任务时,先通过超网络重建前 \(j-1\) 个任务的模型参数来计算 H-score,然后求解 H-embedding \(\hat{e}^{(j)}\),最后在训练中用该嵌入指导超网络优化。
关键设计 1: H-embedding 的计算¶
H-score 度量:信息论框架下的可迁移性度量,定义为:
对于从任务 \(T_n\) 到 \(T_j\) 的可迁移性,使用当前任务数据 \(D_j\) 和旧任务模型参数 \(\Theta^{(n)}\)(由超网络重建),无需访问旧数据。
嵌入优化:H-embedding 通过最小化嵌入欧氏距离与归一化可迁移性之间的差异来获得:
AHP 归一化:由于 H-score 的绝对值依赖目标任务特征,直接对齐欧氏距离和逆 H-score 存在尺度不一致问题。通过构建成对锦标赛矩阵 \(W^{(j)}\)(\(w_{m,n}^{(j)} = H(T_m, T_j) / H(T_n, T_j)\)),取其主特征向量作为归一化后的可迁移性分数,再经指数变换映射为距离。
关键设计 2: 超网络架构与嵌入引导¶
超网络 \(f_h(e, \Theta_h)\) 将任务嵌入 \(e^{(j)}\) 映射到任务模型参数 \(\Theta^{(j)}\)。引导机制通过编码器-解码器实现:
- 编码器 \(f_{Enc}\):超网络前半部分,将任务嵌入映射到隐表示 \(h\)
- 解码器 \(f_{Dec}\):轻量 MLP,从 \(h\) 重建嵌入 \(\tilde{e}\),要求 \(\tilde{e} \approx \hat{e}\)(H-embedding)
这确保超网络的中间表示保留了足够的任务关系信息。
关键设计 3: LoRA 插件模式¶
框架支持仅生成 LoRA 参数而非完整模型权重,自然兼容 PEFT:
- 冻结预训练骨干网络
- 超网络仅输出 LoRA 的低秩矩阵
- 显著降低超网络规模和推理开销
损失函数¶
总损失由三部分组成:
| 项 | 定义 | 作用 |
|---|---|---|
| \(L_t\) | 交叉熵监督损失 | 学习当前任务 |
| \(L_c\) | \(\frac{1}{j-1}\sum_{n=1}^{j-1}\|f_h(e^{(n)}, \Theta_h) - f_h(e^{(n)}, \Theta_h^*)\|^2\) | 防止遗忘:保证旧嵌入生成相似的模型权重 |
| \(L_e\) | \(\mathcal{L}(f_{Dec}(f_{Enc}(e^{(j)})), \hat{e}^{(j)})\)(余弦相似度损失) | H-embedding 引导:注入任务关系先验 |
实验关键数据¶
主实验:CIFAR-100 & ImageNet-R (N=10)¶
| 骨干 | 方法 | CIFAR-100 FAA(↑) | ImageNet-R FAA(↑) |
|---|---|---|---|
| ResNet-32 | WSN | 82.75 | 37.99 |
| ResNet-32 | HyperNet | 81.57 | 38.03 |
| ResNet-32 | H-embed Hnet | 83.08 | 38.16 |
| ViT-B/16 | HiDe-Prompt | 93.48 | 74.65 |
| ViT-B/16 | SD-LoRA | 87.26 | 77.18 |
| ViT-B/16 | H-embed Hnet-LoRA | 97.07 | 81.38 |
ViT-LoRA 设定下提升尤为显著:CIFAR-100 上比 HiDe-Prompt 高 3.6 个点,ImageNet-R 上比 SD-LoRA 高 4.2 个点。
扩展实验:不同任务数与 DomainNet¶
| 方法 | ImgNet-R (N=5) FAA | ImgNet-R (N=20) FAA | DomainNet (N=5) FAA |
|---|---|---|---|
| SD-LoRA | 79.01 | 74.05 | 72.58 |
| HiDe-Prompt | 74.77 | 73.59 | 72.20 |
| H-embed Hnet-LoRA | 79.27 | 79.90 | 76.64 |
关键发现:任务数越多,优势越明显(N=20 时领先 SD-LoRA 约 5.9 个点),说明框架在长任务序列下的鲁棒性更强。
消融实验¶
在 ImageNet-R (N=5, 10, 20) 上进行:
| 变体 | 效果 |
|---|---|
| 去除 H-embedding 引导 (w/o Hemb) | FAA 明显下降,验证任务关系先验的有效性 |
| 去除 CL 正则化 (w/o CLreg) | FAA 显著恶化,遗忘加剧 |
| 去除 AHP 归一化 (w/o AHP) | 性能下降,尤其长序列中稳定性受损 |
效率分析¶
- 任务嵌入维度仅 32 维,存储开销极低
- 推理时延近乎为零:CIFAR-100 上 ResNet32 原始 4.257s → 加框架 4.260s
- ImageNet-R 上 ViT 原始 4.313s → 加 LoRA 框架 4.568s
- 解码器和 H-embedding 均为轻量两层 MLP 和 32 维向量
亮点与洞察¶
- 视角新颖:从任务关系的先验利用切入,而非模型后验操作,为持续学习提供了正交的改进维度
- 理论扎实:H-score 根植于信息论中的最大相关性分析(HGR maximal correlation),有清晰的理论基础
- 在线计算:H-embedding 不需要回访旧数据,仅通过超网络重建旧模型参数即可计算,天然适配 rehearsal-free 设定
- AHP 归一化精巧:用成对锦标赛矩阵的主特征向量解决 H-score 跨任务尺度不一致问题,简洁有效
- 即插即用:框架可以仅生成 LoRA 等 PEFT 参数,与预训练模型无缝集成
- 长序列优势:随任务数增长性能优势放大,说明任务关系建模在复杂场景下更有价值
局限性¶
- CIL 适配不够自然:类增量学习(CIL)设定下需要额外的任务 ID 分类器(基于冻结预训练模型特征训练),与框架的在线特性不够紧密耦合
- H-score 假设受限:H-score 基于线性特征和条件独立性假设,面对高度非线性的任务关系时度量精度可能下降
- 超网络扩展性:虽然限制了超网络参数不超过主网络,但当主网络很大时(如 LLM),全模型生成版本显然不可行,LoRA 版本是必须的
- 任务边界假设:框架假设任务边界明确且任务 ID 训练时可用(TIL 设定),不适用于模糊边界的在线流式场景
- 仅验证分类任务:实验仅覆盖图像分类基准,未验证检测、分割等密集预测任务
相关工作与启发¶
- von Oswald et al. (2020):提出超网络用于持续学习的基本范式(CL 正则化损失 \(L_c\) 来源于此),本文在其基础上引入可迁移性引导
- SD-LoRA (Wu et al., 2025):当前 LoRA 系持续学习的强基线,本文通过任务关系建模大幅超越
- H-score (Bao et al., 2019):信息论可迁移性度量,本文将其从静态评估工具发展为动态嵌入引导信号
- AHP normalization (Zamir et al., 2018):源自 Taskonomy 的任务关系建模,本文巧妙借用其归一化方法解决 H-score 尺度问题
- 启发:将迁移学习中的可迁移性度量与持续学习框架结合,是一个有前景的方向;类似思路可推广到其他元学习或多任务学习场景
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 新颖性 | 4 | 从任务可迁移性角度切入持续学习,H-embedding 设计原创 |
| 技术深度 | 4 | 信息论基础扎实,AHP 归一化设计精巧,框架完整 |
| 实验充分度 | 4 | 多基准多骨干多设定,消融完整,效率分析到位 |
| 实用性 | 3.5 | LoRA 插件模式实用,但 CIL 和大模型适配还需改进 |
| 写作质量 | 4 | 结构清晰,动机展开自然,公式推导严谨 |
| 总分 | 3.9/5 | 一篇扎实的持续学习工作,理论与实验兼顾,任务关系先验的引入是清晰的创新点 |
与相关工作的对比¶
| 方法 | 类别 | 是否需回放 | 任务关系建模 | 可扩展性 |
|---|---|---|---|---|
| EWC / SI | 正则化 | 否 | 无(隐式通过参数重要性) | 一般,参数约束随任务累积 |
| PackNet / WSN | 架构 | 否 | 无 | 差,子网络容量有限 |
| HyperNet (von Oswald) | 超网络 | 否 | 无(任务嵌入随机初始化) | 中,嵌入无先验指导 |
| Ermis et al. (2022) | 可迁移性 | 是(需旧样本+旧模型) | 有 | 差,存储开销大 |
| HiDe-Prompt | Prompt | 否 | 无 | 中,prompt池大小受限 |
| SD-LoRA | LoRA | 否 | 无 | 中 |
| 本文 H-embed Hnet | 超网络+可迁移性 | 否 | 有(H-score 先验) | 强,长序列优势放大 |
核心差异:本文是唯一在 rehearsal-free 设定下显式利用信息论可迁移性度量建模任务关系的方法。相比 vanilla HyperNet,H-embedding 赋予任务嵌入几何结构——嵌入间距离反映可迁移性,使超网络生成的参数天然适配任务相似度。
启发与关联¶
- 可迁移性度量 → 元学习信号:H-score 原为静态评估工具,本文将其转化为在线优化目标,启发我们将其他迁移学习度量(如 LogME、OTCE)引入持续/多任务学习
- 嵌入空间的几何约束:通过 MDS 式优化让嵌入距离 ≈ 可迁移性距离,类似 Task2Vec 但更轻量——可探索将此思路用于模型选择或 NAS
- AHP 归一化的通用性:成对比较 → 主特征向量归一化的技巧可推广到任何需要跨尺度对齐的场景(如多指标 AutoML)
- 超网络 + PEFT 的范式:超网络仅生成 LoRA 参数的设计值得在 LLM 持续学习中探索——如为每个下游任务生成 LoRA adapter,共享超网络编码任务关系
相关论文¶
- [NeurIPS 2025] RGB-to-Polarization Estimation: A New Task and Benchmark Study
- [NeurIPS 2025] Conformal Online Learning of Deep Koopman Linear Embeddings
- [ACL 2026] Task-Aware LLM Routing with Multi-Level Task-Profile-Guided Data Synthesis for Cold-Start Scenarios
- [NeurIPS 2025] Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- [ACL 2025] KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning