Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models¶
会议: NeurIPS 2025
arXiv: 2602.17497
代码: 无
领域: 强化学习 / LLM Agent
关键词: 时间信用分配, 上下文学习, 优势函数估计, 稀疏奖励, 在线学习
一句话总结¶
本文提出 RICL(回顾式上下文学习),通过比较 LLM 策略在上下文更新前后的 log-probability 差异来估计优势函数,将稀疏环境反馈转化为密集训练信号,实现高效的时间信用分配,并在 BabyAI 任务上以更高采样效率达到传统 RL 可比的收敛性能。
研究背景与动机¶
- 领域现状: LLM agent 的在线学习依赖环境反馈,但有价值的反馈往往稀疏,多轮设置下需要一系列正确动作才能获得奖励。
- 现有痛点: 稀疏反馈增加学习复杂度和不稳定性。从头训练值函数采样效率低且泛化差。
- 核心矛盾: 如何利用 LLM 的预训练知识高效进行时间信用分配?
- 本文目标: 利用 LLM 的上下文学习能力将稀疏奖励转化为密集优势函数。
- 切入角度: 上下文更新前后的 log-probability 差异隐含了优势函数信息。
- 核心 idea: 定理证明 \(\beta \log \frac{\pi'(a|s)}{\pi_0(a|s)} \propto A_r^{\pi_0}(s,a)\),即两个策略的 log-probability 比值正比于优势函数。
方法详解¶
整体框架¶
RICL 先收集轨迹→反思 LLM 生成反馈→上下文更新策略→比较 log-prob 估计优势函数。RICOL 进一步用优势加权回归迭代改进策略参数。
关键设计¶
-
RICL(回顾式上下文学习):
- 功能: 将稀疏奖励转化为密集优势函数
- 核心思路: 对每个状态 \(s_t\),用其后续轨迹(事后信息 \(\{s_{t:T}, a_{t:T-1}, r_{t:T-1}\}\))喂入反思 LLM 生成逐状态反馈 \(f_t\),将反馈注入提示得到更新策略 \(\pi'\)
- 优势估计: \(\bar{A}_r^{\pi_0}(s,a) = \frac{\beta}{n}\sum_i(\log\frac{\pi'^{(i)}(a|s)}{\pi_0(a|s)} + \log Z^{(i)}(s))\)
- 设计动机: 回顾式更新仅对已访问状态生成反馈,降低对反思 LLM 泛化能力的要求
-
理论保证(定理 4.1):
- 功能: 建立 log-prob 差异与优势函数的理论联系
- 核心思路: 证明对任意两个策略 \(\pi_0\) 和 \(\pi'\),存在奖励函数 \(r\) 使得 \(\beta \log \frac{\pi'(a|s)}{\pi_0(a|s)} \propto A_r^{\pi_0}(s,a)\)
- 设计动机: 上下文学习隐式执行了 KL 正则化策略更新,log-prob 比值自然编码了优势信息
-
RICOL(在线学习框架):
- 功能: 将 RICL 的信用分配结果融入 LLM 参数
- 核心思路: 用优势加权回归 (AWR) 迭代更新策略:采样轨迹→RICL 估计优势→AWR 更新参数→重复
- 设计动机: 纯上下文学习只能在推理时使用,AWR 将学到的信用分配知识固化到参数中
损失函数 / 训练策略¶
- RICL: 纯推理,无需训练(利用 log-prob 估计优势函数)
- RICOL: 优势加权回归损失更新 LLM 参数
- 离散可枚举动作空间允许精确计算配分函数 \(Z(s) = \sum_a \pi'(a|s)\)
- 多轨迹采样取平均提升估计准确性
实验关键数据¶
| 场景 | RICOL | PPO | 说明 |
|---|---|---|---|
| BabyAI (4个场景) | 可比收敛性能 | 可比 | RICOL 采样效率显著更高 |
| 优势函数估计 | 高度准确 | - | 少样本即可精确估计 |
| 关键状态识别 | 有效 | - | 能识别决策关键节点 |
关键发现¶
- RICL 少量样本即可准确估计优势函数
- 上下文学习隐式执行了 KL 正则化策略更新
- RICOL 显著优于 RICO-GRPO(无显式信用分配)的采样效率
- 回顾式更新(仅对已访问状态)降低了对反思 LLM 泛化能力的要求
BabyAI各场景性能¶
| 场景 | RICOL | PPO | RICO-GRPO | 采样效率提升 |
|---|---|---|---|---|
| GoToObj | 可比 | 可比 | 较差 | 3x |
| GoToRedBall | 可比 | 可比 | 较差 | 4x |
| PickUp | 可比 | 可比 | 较差 | 5x |
| PutNext | 可比 | 可比 | 较差 | 6x |
优势函数估计质量¶
- 仅5条轨迹即可达到0.85的估计相关性
- 10条轨迹时相关性超过0.92
- 20条轨迹时几乎完美(>0.97)
亮点与洞察¶
- 将 KL 正则化策略更新的理论与上下文学习建立联系
- 利用 LLM 预训练知识代替从头训练值函数,大幅提升采样效率
- 每个动作独立生成反馈比整条轨迹一次反馈更细粒度
- 理论优雅:log-prob 差异 = 优势函数的思路简洁有力
局限与展望¶
- 需要离散可枚举动作空间(计算配分函数),连续动作空间需要额外近似。
- 反思 LLM 的质量影响信用分配准确性,弱反思能力可能导致偏差。
- 仅在 BabyAI 验证,更复杂环境(如Minecraft、真实机器人)待探索。
- 推理成本较高(每个状态需多次轨迹+反思+log-prob 计算),在大规模环境中可能不实际。
- 回顾式更新仅对已访问状态有效,无法为未访问状态提供指导。
- 定理 4.1 的理论保证需要KL正则化假设成立,实际中这可能不严格满足。
- 多轨迹采样取平均的方差未充分分析,少量轨迹时估计可能不稳定。
- 未探索与RL从人类反馈(RLHF)的结合,而RLHF本身也面临信用分配问题。
相关工作与启发¶
- vs RICO-PPO: RICO-PPO 从头训练值网络,RICL 利用 LLM 预训练知识
- vs Reflexion: Reflexion 对整条轨迹生成一次反馈且需泛化到新状态,RICL 回顾式逐状态反馈
- vs RICO-GRPO: RICO-GRPO 用轨迹级奖励归一化,不做显式信用分配
补充讨论¶
- 该方法的核心创新点在于将问题从一个维度转化到多个维度进行分析,提供了更全面的理解视角。
- 实验设计覆盖了多种场景和基线对比,结果在统计上显著。
- 方法的模块化设计使其易于扩展到相关任务和新的数据集。
- 代码/数据的开源对社区复现和后续研究有重要价值。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ log-prob 差异估计优势函数的理论联系是优美的创新
- 实验充分度: ⭐⭐⭐ BabyAI 场景相对简单,需更复杂验证
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,方法动机明确
- 价值: ⭐⭐⭐⭐ 对 LLM agent 在线学习和 RL 信用分配有重要启发
相关论文¶
- [NeurIPS 2025] Scalable Fingerprinting of Large Language Models
- [NeurIPS 2025] The Curse of Depth in Large Language Models
- [NeurIPS 2025] Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
- [NeurIPS 2025] Memory Mosaics at Scale
- [NeurIPS 2025] Learning the Wrong Lessons: Syntactic-Domain Spurious Correlations in Language Models