Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models¶

会议: NeurIPS 2025
arXiv: 2602.17497
代码: 无
领域: 强化学习 / LLM Agent
关键词: 时间信用分配, 上下文学习, 优势函数估计, 稀疏奖励, 在线学习

一句话总结¶

本文提出 RICL（回顾式上下文学习），通过比较 LLM 策略在上下文更新前后的 log-probability 差异来估计优势函数，将稀疏环境反馈转化为密集训练信号，实现高效的时间信用分配，并在 BabyAI 任务上以更高采样效率达到传统 RL 可比的收敛性能。

领域现状: LLM agent 的在线学习依赖环境反馈，但有价值的反馈往往稀疏，多轮设置下需要一系列正确动作才能获得奖励。
现有痛点: 稀疏反馈增加学习复杂度和不稳定性。从头训练值函数采样效率低且泛化差。
核心矛盾: 如何利用 LLM 的预训练知识高效进行时间信用分配？
本文目标: 利用 LLM 的上下文学习能力将稀疏奖励转化为密集优势函数。
切入角度: 上下文更新前后的 log-probability 差异隐含了优势函数信息。
核心 idea: 定理证明 \(\beta \log \frac{\pi'(a|s)}{\pi_0(a|s)} \propto A_r^{\pi_0}(s,a)\)，即两个策略的 log-probability 比值正比于优势函数。

RICL 先收集轨迹→反思 LLM 生成反馈→上下文更新策略→比较 log-prob 估计优势函数。RICOL 进一步用优势加权回归迭代改进策略参数。

RICL（回顾式上下文学习）:
- 功能: 将稀疏奖励转化为密集优势函数
- 核心思路: 对每个状态 \(s_t\)，用其后续轨迹（事后信息 \(\{s_{t:T}, a_{t:T-1}, r_{t:T-1}\}\)）喂入反思 LLM 生成逐状态反馈 \(f_t\)，将反馈注入提示得到更新策略 \(\pi'\)
- 优势估计: \(\bar{A}_r^{\pi_0}(s,a) = \frac{\beta}{n}\sum_i(\log\frac{\pi'^{(i)}(a|s)}{\pi_0(a|s)} + \log Z^{(i)}(s))\)
- 设计动机: 回顾式更新仅对已访问状态生成反馈，降低对反思 LLM 泛化能力的要求
理论保证（定理 4.1）:
- 功能: 建立 log-prob 差异与优势函数的理论联系
- 核心思路: 证明对任意两个策略 \(\pi_0\) 和 \(\pi'\)，存在奖励函数 \(r\) 使得 \(\beta \log \frac{\pi'(a|s)}{\pi_0(a|s)} \propto A_r^{\pi_0}(s,a)\)
- 设计动机: 上下文学习隐式执行了 KL 正则化策略更新，log-prob 比值自然编码了优势信息
RICOL（在线学习框架）:
- 功能: 将 RICL 的信用分配结果融入 LLM 参数
- 核心思路: 用优势加权回归 (AWR) 迭代更新策略：采样轨迹→RICL 估计优势→AWR 更新参数→重复
- 设计动机: 纯上下文学习只能在推理时使用，AWR 将学到的信用分配知识固化到参数中

场景	RICOL	PPO	说明
BabyAI (4个场景)	可比收敛性能	可比	RICOL 采样效率显著更高
优势函数估计	高度准确	-	少样本即可精确估计
关键状态识别	有效	-	能识别决策关键节点

场景	RICOL	PPO	RICO-GRPO	采样效率提升
GoToObj	可比	可比	较差	3x
GoToRedBall	可比	可比	较差	4x
PickUp	可比	可比	较差	5x
PutNext	可比	可比	较差	6x