Continual Knowledge Adaptation for Reinforcement Learning¶
会议: NeurIPS 2025 arXiv: 2510.19314 代码: GitHub 领域: 强化学习 / 持续学习 关键词: continual RL, knowledge vector, catastrophic forgetting, forward transfer, knowledge merging
一句话总结¶
提出 CKA-RL,为每个任务维护知识向量(task-specific knowledge vector),通过 softmax 加权的动态知识适配和自适应知识合并机制,在三个持续 RL 基准上实现 4.20% 的整体性能提升和 8.02% 的前向迁移提升。
研究背景与动机¶
- 领域现状:持续强化学习(CRL)让 agent 在非静态环境中顺序学习多个任务。现有方法分为正则化、经验回放、架构扩展和元学习四类。
- 现有痛点:(1) 跨任务冲突——不同任务可能共享结构但目标不兼容,直接复用知识会互相干扰;(2) 灾难性遗忘——学新任务时覆盖旧知识;(3) 可扩展性——任务数量增长导致内存和计算成本线性增加(如 CompoNet)。
- 核心矛盾:如何在保持旧任务知识的同时高效利用历史知识加速新任务学习,且内存不随任务数线性增长?
- 本文要解决什么? 设计一种能高效积累、复用和精简历史知识的持续 RL 方法。
- 切入角度:受模型编辑(model editing)中"任务向量"概念启发,将每个任务学到的增量参数作为知识向量,通过可学习权重动态组合历史知识向量来适配新任务。
- 核心idea一句话:用知识向量池存储历史,softmax 加权适配新任务,相似向量自动合并控制内存。
方法详解¶
整体框架¶
三组件结构:(1) 在第一个任务上训练得到 base 参数 \(\theta_{base}\);(2) 后续每个新任务 \(\tau_k\) 学习一个知识向量 \(v_k\),同时学习对历史向量 \(\{v_1,...,v_{k-1}\}\) 的 softmax 加权系数 \(\alpha_k\);(3) 向量池超过容量 \(K_{max}\) 时,合并最相似的两个向量。
关键设计¶
- 知识向量与动态适配:
- 做什么:每个任务训练完成后提取知识向量 \(v_k = \theta_k - \theta_{base}\),加入向量池 \(\mathcal{V}\)
- 核心思路:新任务的参数为 \(\theta_k = \theta_{base} + \sum_{j=1}^{k-1} \alpha_j^k v_j + v_k\),其中 \(\alpha_j^k = \text{softmax}(\beta_j^k)\) 是可学习的,\(v_k\) 初始化为零向量。训练时固定 \(\theta_{base}\),只优化 \(\beta_k\) 和 \(v_k\)
-
设计动机:softmax 保证权重和为 1,且包含 \(v_1 = 0\)(null knowledge),使模型可以选择"不用历史知识"(当 \(\alpha_1 = 1\) 时),避免负迁移
-
自适应知识合并(Adaptive Knowledge Merging):
- 做什么:当向量池大小超过 \(K_{max}\) 时,合并最相似的一对向量
- 核心思路:用余弦相似度 \(S_{ij} = \frac{v_i \cdot v_j}{\|v_i\| \|v_j\|}\) 度量相似性,找到最相似对 \((v_m, v_n) = \arg\max S_{ij}\),合并为 \(v_{merge} = \frac{1}{2}(v_m + v_n)\)
-
设计动机:相似的知识向量编码了功能相近的适配方向,合并后信息损失最小;保持向量池紧凑,解决任务数增长的可扩展性问题
-
基础模型构建:
- 做什么:在第一个任务上训练得到 \(\theta_{base}\),作为后续所有知识适配的基础
- 核心思路:\(\theta_{base}\) 包含通用特征表示,设定 \(v_1 = 0\) 将其包含在向量池中
- 设计动机:后续任务只需学习增量(知识向量),而非从头训练
训练流程¶
- 任务 1:训练 \(\theta_{base}\),\(v_1 = 0\) 加入向量池
- 任务 \(k\):初始化 \(v_k = 0\), \(\beta_k \sim \mathcal{N}(0,1)\);构建 \(\theta_k\);用 RL 优化 \((v_k, \beta_k)\);将 \(v_k\) 加入池
- 若 \(|\mathcal{V}| > K_{max}\):找最相似对合并
实验关键数据¶
三个基准上的整体性能(PERF.)和前向迁移(FWT.)¶
| 方法 | Meta-World PERF. | Meta-World FWT. | SpaceInvaders PERF. | Freeway FWT. | 平均 PERF. | 平均 FWT. |
|---|---|---|---|---|---|---|
| Baseline | 0.419 | 0.000 | 0.631 | 0.000 | 0.392 | 0.000 |
| PackNet | 0.584 | 0.019 | 0.773 | 0.197 | 0.504 | 0.145 |
| CompoNet | 0.639 | 0.161 | 0.859 | 0.403 | 0.547 | 0.274 |
| RECALL | 0.613 | 0.109 | 0.821 | 0.356 | 0.532 | 0.220 |
| CKA-RL | 0.673 | 0.223 | 0.897 | 0.481 | 0.576 | 0.355 |
消融实验¶
| 配置 | 平均 PERF. 变化 | 说明 |
|---|---|---|
| w/o 知识适配(仅 \(v_k\)) | -3.2% | 不用历史知识,退化为独立任务学习 |
| w/o 自适应合并 | -1.1% | 内存线性增长,但性能略有提升 |
| 固定 \(\alpha\)(均匀权重) | -2.5% | 不能自适应选择历史知识 |
| 完整 CKA-RL | 最佳 | 动态适配 + 自适应合并 |
关键发现¶
- CKA-RL 在三个基准上一致性地超越 9 种 SOTA 方法,整体性能提升 4.20%,前向迁移提升 8.02%
- 知识向量的 softmax 权重在训练中自动分化——有时集中在一个历史任务上(高相关性),有时接近均匀(低相关性)
- 自适应合并机制使内存保持恒定的 \(K_{max}\),而性能损失极小
亮点与洞察¶
- 模型编辑思想迁移到 RL:将 NLP 中的"任务向量"概念优雅地迁移到持续 RL,知识向量的线性可组合性使跨任务迁移变得自然
- null knowledge 设计:\(v_1 = 0\) 的设计允许模型"选择不用历史知识",有效避免负迁移——这是一个简单但关键的细节
- 相似度引导的合并:比随机合并或固定规则合并更有原则性,保证信息损失最小化
局限性 / 可改进方向¶
- 知识向量维度等于模型参数维度:对大模型来说内存仍然可观,可考虑低秩知识向量(如 LoRA 式分解)
- 简单平均合并可能丢失方向信息:两个向量的平均未必保留各自的最优适配方向,可考虑加权合并或基于任务性能的合并策略
- 仅在离散动作空间(Meta-World 除外)评估:连续控制和更复杂的任务序列需要更多验证
- 基础模型选择敏感:第一个任务的质量直接影响后续所有任务的表现,如果第一个任务不具代表性可能导致差的 base 参数
- 知识向量的可解释性:目前不清楚向量的哪些维度编码了什么样的任务知识,可视化分析可能提供更多洞察
- 合并阈值 \(K_{max}\) 的选择:当前需要手工设定,自适应调节机制可能更好
- 任务顺序敏感性:论文未分析不同任务呈现顺序对最终性能的影响
相关工作与启发¶
- vs CompoNet: CompoNet 用模块化架构组合策略,CKA-RL 用向量空间组合更简洁,且有合并机制控制规模
- vs PackNet: PackNet 在固定网络上用 mask 隔离任务参数,CKA-RL 用连续向量适配更灵活
- vs MAML: MAML 通过元学习快速适配,CKA-RL 通过显式知识向量累积实现迁移
评分¶
- 新颖性: ⭐⭐⭐⭐ 知识向量 + 自适应合并的组合新颖,借鉴模型编辑有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 3 个基准 + 9 种对比方法 + 详细消融 + 可视化
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,理论分析附在附录
- 价值: ⭐⭐⭐⭐ 对持续 RL 的知识复用问题提供了优雅的解决方案