跳转至

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

基本信息

  • arXiv: 2602.17497
  • 会议: NeurIPS 2025
  • 作者: Wen-Tse Chen, Jiayu Chen, Fahim Tajwar, Hao Zhu, Xintong Duan, Ruslan Salakhutdinov, Jeff Schneider
  • 领域: RL / Agent / Temporal Credit Assignment / LLM for RL

一句话总结

论文提出 RICL(Retrospective In-Context Learning),利用 LLM 的预训练知识把环境中的稀疏奖励回溯性转化为稠密 advantage supervision,再结合在线策略迭代框架 RICOL,在 BabyAI 四个场景中以更高样本效率达到与传统在线 RL 相当的收敛表现,展示了 LLM 在 temporal credit assignment 上的潜力。

背景与动机

自进化 agent 的核心难题之一是: - 数据来自自身采样; - 环境反馈稀疏; - 长序列中难以判断哪些状态真正贡献了回报。

传统 temporal credit assignment 多依赖任务特定 value function,但这类方法: - 样本效率不高; - 泛化性弱; - 往往需要大量在线交互。

作者的想法是:让 LLM 利用其先验知识,通过 in-context retrospective reasoning 直接做 credit assignment。

核心问题

能否用预训练 LLM 从有限轨迹和稀疏奖励中推断 advantage function 或关键状态,从而替代或缓解传统 value-learning 式 temporal credit assignment?

方法详解

1. RICL:Retrospective In-Context Learning

RICL 的目标是把 sparse reward 转为 dense training signal: - 输入为带奖励结果的轨迹; - 让 LLM 回顾整段交互过程; - 输出对状态/动作价值贡献的推断,相当于 advantage estimation。

它本质上是在做“基于语言模型先验的离线信用分配”。

2. 关键状态识别

除了 advantage 估计,RICL 还能找出对最终回报最关键的状态,这对长链 agent 训练很重要: - 便于策略聚焦关键决策点; - 降低稀疏奖励带来的训练难度。

3. RICOL:在线迭代学习框架

作者进一步提出 RICOL: - 用 RICL 产生 credit assignment 结果; - 基于这些结果迭代优化策略; - 形成在线学习闭环。

这让 LLM 不只是评估器,而是实际参与 RL 更新流程。

实验结论

  • RICL 能在有限样本下较准确地估计 advantage;
  • 能有效识别关键状态;
  • 在 4 个 BabyAI 场景中,RICOL 以更高样本效率达到与传统在线 RL 类似的收敛性能。

亮点

  1. Agent 相关性极强:直接解决 temporal credit assignment 这个 RL 核心难题。
  2. 利用 LLM 先验:不是把 LLM 当 policy,而是当 credit reasoner,用法更精准。
  3. 样本效率提升有实际价值:适合昂贵环境交互场景。
  4. 方法简单有启发:把 retrospective reasoning 引入 RL 很自然。

局限性

  1. 当前验证集中在 BabyAI,环境复杂度仍有限。
  2. LLM 生成的 advantage 质量可能受 prompt 和轨迹表述方式影响。
  3. 在高维连续控制和真实机器人环境中的可扩展性仍待检验。

与相关工作的对比

  • 相比传统 value function 方法:更依赖 LLM 先验推断,样本效率更有潜力。
  • 相比让 LLM 直接做 policy:RICL 聚焦 credit assignment,角色更合理。
  • 相比 offline RL 的 reward relabeling:RICL 更强调序列级回顾推理。

启发

  • 可与多模态 agent 结合,让 VLM/LLM 共同做视觉轨迹信用分配。
  • 与 FutureSightDrive 这类 anticipatory planning 工作互补,一个负责规划前瞻,一个负责训练回溯。
  • 对 tool-use agent 的长链错误归因也很有参考价值。

评分

  • 新颖性:★★★★★
  • 技术深度:★★★★☆
  • Agent 价值:★★★★★
  • 实验完整度:★★★★☆