Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models¶

基本信息¶

arXiv: 2602.17497
会议: NeurIPS 2025
作者: Wen-Tse Chen, Jiayu Chen, Fahim Tajwar, Hao Zhu, Xintong Duan, Ruslan Salakhutdinov, Jeff Schneider
领域: RL / Agent / Temporal Credit Assignment / LLM for RL

一句话总结¶

论文提出 RICL（Retrospective In-Context Learning），利用 LLM 的预训练知识把环境中的稀疏奖励回溯性转化为稠密 advantage supervision，再结合在线策略迭代框架 RICOL，在 BabyAI 四个场景中以更高样本效率达到与传统在线 RL 相当的收敛表现，展示了 LLM 在 temporal credit assignment 上的潜力。

背景与动机¶

自进化 agent 的核心难题之一是： - 数据来自自身采样； - 环境反馈稀疏； - 长序列中难以判断哪些状态真正贡献了回报。

传统 temporal credit assignment 多依赖任务特定 value function，但这类方法： - 样本效率不高； - 泛化性弱； - 往往需要大量在线交互。

作者的想法是：让 LLM 利用其先验知识，通过 in-context retrospective reasoning 直接做 credit assignment。

核心问题¶

能否用预训练 LLM 从有限轨迹和稀疏奖励中推断 advantage function 或关键状态，从而替代或缓解传统 value-learning 式 temporal credit assignment？

方法详解¶

1. RICL：Retrospective In-Context Learning¶

RICL 的目标是把 sparse reward 转为 dense training signal： - 输入为带奖励结果的轨迹； - 让 LLM 回顾整段交互过程； - 输出对状态/动作价值贡献的推断，相当于 advantage estimation。

它本质上是在做“基于语言模型先验的离线信用分配”。

2. 关键状态识别¶

除了 advantage 估计，RICL 还能找出对最终回报最关键的状态，这对长链 agent 训练很重要： - 便于策略聚焦关键决策点； - 降低稀疏奖励带来的训练难度。

3. RICOL：在线迭代学习框架¶

作者进一步提出 RICOL： - 用 RICL 产生 credit assignment 结果； - 基于这些结果迭代优化策略； - 形成在线学习闭环。

这让 LLM 不只是评估器，而是实际参与 RL 更新流程。

实验结论¶

RICL 能在有限样本下较准确地估计 advantage；
能有效识别关键状态；
在 4 个 BabyAI 场景中，RICOL 以更高样本效率达到与传统在线 RL 类似的收敛性能。

亮点¶

Agent 相关性极强：直接解决 temporal credit assignment 这个 RL 核心难题。
利用 LLM 先验：不是把 LLM 当 policy，而是当 credit reasoner，用法更精准。
样本效率提升有实际价值：适合昂贵环境交互场景。
方法简单有启发：把 retrospective reasoning 引入 RL 很自然。

局限性¶

当前验证集中在 BabyAI，环境复杂度仍有限。
LLM 生成的 advantage 质量可能受 prompt 和轨迹表述方式影响。
在高维连续控制和真实机器人环境中的可扩展性仍待检验。

与相关工作的对比¶

相比传统 value function 方法：更依赖 LLM 先验推断，样本效率更有潜力。
相比让 LLM 直接做 policy：RICL 聚焦 credit assignment，角色更合理。
相比 offline RL 的 reward relabeling：RICL 更强调序列级回顾推理。

启发¶

可与多模态 agent 结合，让 VLM/LLM 共同做视觉轨迹信用分配。
与 FutureSightDrive 这类 anticipatory planning 工作互补，一个负责规划前瞻，一个负责训练回溯。
对 tool-use agent 的长链错误归因也很有参考价值。

评分¶

新颖性：★★★★★
技术深度：★★★★☆
Agent 价值：★★★★★
实验完整度：★★★★☆