Continual Knowledge Adaptation for Reinforcement Learning¶

会议: NeurIPS 2025 arXiv: 2510.19314 代码: GitHub 领域: 强化学习 / 持续学习 关键词: continual RL, knowledge vector, catastrophic forgetting, forward transfer, knowledge merging

一句话总结¶

提出 CKA-RL，为每个任务维护知识向量（task-specific knowledge vector），通过 softmax 加权的动态知识适配和自适应知识合并机制，在三个持续 RL 基准上实现 4.20% 的整体性能提升和 8.02% 的前向迁移提升。

研究背景与动机¶

领域现状：持续强化学习（CRL）让 agent 在非静态环境中顺序学习多个任务。现有方法分为正则化、经验回放、架构扩展和元学习四类。
现有痛点：(1) 跨任务冲突——不同任务可能共享结构但目标不兼容，直接复用知识会互相干扰；(2) 灾难性遗忘——学新任务时覆盖旧知识；(3) 可扩展性——任务数量增长导致内存和计算成本线性增加（如 CompoNet）。
核心矛盾：如何在保持旧任务知识的同时高效利用历史知识加速新任务学习，且内存不随任务数线性增长？
本文要解决什么？ 设计一种能高效积累、复用和精简历史知识的持续 RL 方法。
切入角度：受模型编辑（model editing）中"任务向量"概念启发，将每个任务学到的增量参数作为知识向量，通过可学习权重动态组合历史知识向量来适配新任务。
核心idea一句话：用知识向量池存储历史，softmax 加权适配新任务，相似向量自动合并控制内存。

方法详解¶

整体框架¶

三组件结构：(1) 在第一个任务上训练得到 base 参数 \(\theta_{base}\)；(2) 后续每个新任务 \(\tau_k\) 学习一个知识向量 \(v_k\)，同时学习对历史向量 \(\{v_1,...,v_{k-1}\}\) 的 softmax 加权系数 \(\alpha_k\)；(3) 向量池超过容量 \(K_{max}\) 时，合并最相似的两个向量。

关键设计¶

知识向量与动态适配:
做什么：每个任务训练完成后提取知识向量 \(v_k = \theta_k - \theta_{base}\)，加入向量池 \(\mathcal{V}\)
核心思路：新任务的参数为 \(\theta_k = \theta_{base} + \sum_{j=1}^{k-1} \alpha_j^k v_j + v_k\)，其中 \(\alpha_j^k = \text{softmax}(\beta_j^k)\) 是可学习的，\(v_k\) 初始化为零向量。训练时固定 \(\theta_{base}\)，只优化 \(\beta_k\) 和 \(v_k\)
设计动机：softmax 保证权重和为 1，且包含 \(v_1 = 0\)（null knowledge），使模型可以选择"不用历史知识"（当 \(\alpha_1 = 1\) 时），避免负迁移
自适应知识合并（Adaptive Knowledge Merging）:
做什么：当向量池大小超过 \(K_{max}\) 时，合并最相似的一对向量
核心思路：用余弦相似度 \(S_{ij} = \frac{v_i \cdot v_j}{\|v_i\| \|v_j\|}\) 度量相似性，找到最相似对 \((v_m, v_n) = \arg\max S_{ij}\)，合并为 \(v_{merge} = \frac{1}{2}(v_m + v_n)\)
设计动机：相似的知识向量编码了功能相近的适配方向，合并后信息损失最小；保持向量池紧凑，解决任务数增长的可扩展性问题
基础模型构建:
做什么：在第一个任务上训练得到 \(\theta_{base}\)，作为后续所有知识适配的基础
核心思路：\(\theta_{base}\) 包含通用特征表示，设定 \(v_1 = 0\) 将其包含在向量池中
设计动机：后续任务只需学习增量（知识向量），而非从头训练

训练流程¶

任务 1：训练 \(\theta_{base}\)，\(v_1 = 0\) 加入向量池
任务 \(k\)：初始化 \(v_k = 0\), \(\beta_k \sim \mathcal{N}(0,1)\)；构建 \(\theta_k\)；用 RL 优化 \((v_k, \beta_k)\)；将 \(v_k\) 加入池
若 \(|\mathcal{V}| > K_{max}\)：找最相似对合并

实验关键数据¶

三个基准上的整体性能（PERF.）和前向迁移（FWT.）¶

方法	Meta-World PERF.	Meta-World FWT.	SpaceInvaders PERF.	Freeway FWT.	平均 PERF.	平均 FWT.
Baseline	0.419	0.000	0.631	0.000	0.392	0.000
PackNet	0.584	0.019	0.773	0.197	0.504	0.145
CompoNet	0.639	0.161	0.859	0.403	0.547	0.274
RECALL	0.613	0.109	0.821	0.356	0.532	0.220
CKA-RL	0.673	0.223	0.897	0.481	0.576	0.355

消融实验¶

配置	平均 PERF. 变化	说明
w/o 知识适配（仅 \(v_k\)）	-3.2%	不用历史知识，退化为独立任务学习
w/o 自适应合并	-1.1%	内存线性增长，但性能略有提升
固定 \(\alpha\)（均匀权重）	-2.5%	不能自适应选择历史知识
完整 CKA-RL	最佳	动态适配 + 自适应合并

关键发现¶

CKA-RL 在三个基准上一致性地超越 9 种 SOTA 方法，整体性能提升 4.20%，前向迁移提升 8.02%
知识向量的 softmax 权重在训练中自动分化——有时集中在一个历史任务上（高相关性），有时接近均匀（低相关性）
自适应合并机制使内存保持恒定的 \(K_{max}\)，而性能损失极小

亮点与洞察¶

模型编辑思想迁移到 RL：将 NLP 中的"任务向量"概念优雅地迁移到持续 RL，知识向量的线性可组合性使跨任务迁移变得自然
null knowledge 设计：\(v_1 = 0\) 的设计允许模型"选择不用历史知识"，有效避免负迁移——这是一个简单但关键的细节
相似度引导的合并：比随机合并或固定规则合并更有原则性，保证信息损失最小化

局限性 / 可改进方向¶

知识向量维度等于模型参数维度：对大模型来说内存仍然可观，可考虑低秩知识向量（如 LoRA 式分解）
简单平均合并可能丢失方向信息：两个向量的平均未必保留各自的最优适配方向，可考虑加权合并或基于任务性能的合并策略
仅在离散动作空间（Meta-World 除外）评估：连续控制和更复杂的任务序列需要更多验证
基础模型选择敏感：第一个任务的质量直接影响后续所有任务的表现，如果第一个任务不具代表性可能导致差的 base 参数
知识向量的可解释性：目前不清楚向量的哪些维度编码了什么样的任务知识，可视化分析可能提供更多洞察
合并阈值 \(K_{max}\) 的选择：当前需要手工设定，自适应调节机制可能更好
任务顺序敏感性：论文未分析不同任务呈现顺序对最终性能的影响

评分¶

新颖性: ⭐⭐⭐⭐ 知识向量 + 自适应合并的组合新颖，借鉴模型编辑有创意
实验充分度: ⭐⭐⭐⭐⭐ 3 个基准 + 9 种对比方法 + 详细消融 + 可视化
写作质量: ⭐⭐⭐⭐ 方法描述清晰，理论分析附在附录
价值: ⭐⭐⭐⭐ 对持续 RL 的知识复用问题提供了优雅的解决方案