跳转至

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

会议: NeurIPS 2025
arXiv: 2602.17497
代码: 无
领域: LLM 预训练 / 强化学习
关键词: 时序信用分配, 上下文学习, 优势函数, LLM 策略, 在线学习

一句话总结

提出 RICL(Retrospective In-Context Learning),利用 LLM 的预训练知识通过回顾式上下文学习将稀疏环境反馈转化为密集优势函数信号,实现比传统 Monte Carlo 方法高 100 倍的样本效率,并在此基础上构建 RICOL 在线学习框架。

研究背景与动机

领域现状

领域现状:LLM agent 的在线学习面临稀疏奖励挑战——多轮任务中需要连续正确操作才能获得奖励

现有痛点

现有痛点:时序信用分配**(temporal credit assignment)旨在将稀疏反馈分解为每步的密集训练信号

核心矛盾

核心矛盾:传统 RL 需要学习任务特定的值函数来做信用分配,样本效率低、泛化差

解决思路

解决思路:已有 LLM 自我纠正方法(Reflexion 等)使用轨迹级反馈,粒度粗且假设反馈可跨轨迹迁移

补充说明

补充说明:核心洞察**:LLM 的预训练知识 + 回顾式上下文更新 → 可精确估计优势函数

方法详解

整体框架

RICL 的信用分配流程(对每个状态 \(s_t\)):

  1. 收集轨迹:用当前策略 \(\pi_0\)\(s_t\) 出发采集 \(n\) 条轨迹
  2. 回顾式反思:对每条轨迹,将后续的 \((s_{t:T}, a_{t:T-1}, r_{t:T-1})\) 输入 reflector LLM 生成文字反馈 \(f_t\)
  3. 上下文更新:将反馈 \(f_t\) 加入 prompt,得到更新策略 \(\pi'(a|s_t) = \pi_0(a|s_t, f_t)\)
  4. 估计优势函数\(\bar{A}_r^{\pi_0}(s,a) = \frac{\beta}{n}\sum_{i=1}^n (\log\frac{\pi'^{(i)}(a|s)}{\pi_0(a|s)} + \log Z^{(i)}(s))\)

RICOL 将 RICL 嵌入迭代在线学习循环:RICL → 优势加权回归 → 参数更新

关键设计

  1. 基于定理的优势函数推断:

    • 功能:从策略更新前后的 log-probability 差推断优势函数
    • 核心思路:Theorem 4.1 证明对任意两个策略 \(\pi_0\)\(\pi'\),存在奖励函数使得 \(\beta \log\frac{\pi'(a|s)}{\pi_0(a|s)} \propto A_r^{\pi_0}(s,a)\)
    • 设计动机:将 KL 正则化策略更新反转——如果上下文学习隐式执行了策略改进,其 log-ratio 就编码了优势信息
  2. 回顾式设计降低不确定性:

    • 功能:反馈只用于更新产生该反馈的同一轨迹中的状态(而非新轨迹)
    • 核心思路:标准 ICL 假设从一条轨迹获得的经验可迁移到新状态,这对 LLM 不切实际;RICL 仅回顾性地更新已经历的状态
    • 设计动机:减少 LLM 上下文学习的不确定性,RICL 比 ICL 精度高 7.2%

损失函数 / 训练策略

RICOL 策略改进目标(信任域约束的优势加权回归):

\[\min_\pi \mathbb{E}_{s \sim d_{\pi_0}}\left[D_{KL}\left(\frac{1}{Z(s)} \odot \exp((1-\alpha)\log\pi_0 + \alpha\log\pi') \| \pi\right)\right]\]
  • \(\alpha\) 控制信任域大小,防止噪声反馈导致过拟合
  • 策略模型:LLaMA-3.2-3B-Instruct
  • Reflector:GPT-4o mini
  • 离散动作空间,可精确计算 KL 散度

实验关键数据

主实验(表格)

方法 goto 成功率 pickup 成功率 pick_up_seq 成功率 open 成功率
GPT-4o mini (零样本) ~35% ~15% ~10% ~20%
Reflexion ~40% ~20% ~10% ~25%
PPO (3B) ~55%@20k步 ~40%@20k步 ~20%@20k步 ~40%@20k步
PPO (10M参数MLP) ~60%@100k步 ~45%@100k步 ~25%@100k步 ~45%@100k步
RICOL ~55%@2k步 ~40%@2k步 ~20%@2k步 ~40%@2k步

消融实验

  • RICL vs Monte Carlo 信用分配:RICL 用 10 条轨迹达到 MC 用 1000 条的精度(100x 样本效率)
  • RICL vs ICL:在 BabyAI goto 上,RICL 预测专家动作的准确率高 7.2%
  • RICOL vs RWR(无信用分配):RWR 仅在初始成功率高的任务上有效,稀疏奖励下退化
  • 噪声鲁棒性:反馈准确率低至 70% 时 RICOL 仍有效

关键发现

  • RICOL 比 PPO (3B) 样本效率高约 10 倍,比 PPO (MLP) 高约 50 倍
  • 上下文学习隐式执行了 KL 正则化策略更新
  • 比 Reflexion 更好,因为 RICL 提供状态级反馈而非轨迹级;Reflexion 的收益快速饱和
  • 3B 模型通过交互式学习可超越 GPT-4o mini 的零样本表现

亮点与洞察

  • LLM 预训练知识 → 值估计:首次展示 LLM 可通过上下文学习准确估计优势函数,无需训练值网络
  • 回顾式设计巧妙地解决了上下文学习不可靠的问题
  • 理论基础扎实:Theorem 4.1 为方法提供了规范性支撑
  • 适用于模拟预算有限(1k-10k 步)的场景

局限与展望

  • 仅支持离散有限动作空间(需要枚举所有动作计算归一化项 \(Z\)
  • BabyAI 任务相对简单,更复杂推理任务的效果未知
  • 需要额外的 reflector LLM(GPT-4o mini),增加推理成本
  • 未在 token 级别 MDP 或推理任务上测试

相关工作与启发

  • Reflexion 使用轨迹级上下文学习,RICL 在状态级做回顾式更新,更精细
  • RICO-GRPO 用轨迹级奖励估计优势但不做显式信用分配
  • AWR(优势加权回归)是策略改进阶段的基石方法

评分

  • 理论创新:⭐⭐⭐⭐⭐
  • 实验验证:⭐⭐⭐⭐
  • 实用价值:⭐⭐⭐⭐
  • 写作质量:⭐⭐⭐⭐
  • 综合评分:⭐⭐⭐⭐

相关论文