跳转至

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

日期: 2026-03-09
arXiv: 2603.08561
代码: GitHub
领域: LLM Agent / 强化学习
关键词: 强化学习, LLM Agent, 内在反馈, 回顾式反思, 经验学习

一句话总结

提出 RetroAgent 框架,通过回顾式自我反思机制生成双重内在反馈(数值反馈鼓励探索 + 语言反馈利用经验),使 LLM Agent 从"一次性解题"进化为"持续自我演进",在四个 Agent 任务上大幅超越现有方法。

研究背景与动机

  1. 现状:标准 RL 训练的 LLM Agent 主要优化外在任务成功奖励,侧重一次性任务求解而非持续适应。GRPO 等算法已广泛应用于 Agent 训练
  2. 痛点:两个关键限制——(a) Agent 倾向于过度利用已知策略,可能收敛到次优 policy;(b) 经验隐式存储于模型参数中,难以高效检索和复用
  3. 矛盾:现有工作沿两条独立方向推进:一条促进探索(meta-RL、step-wise reward),另一条提供显式记忆(存储交互历史或提炼技能)。然而这两个方向未被紧密耦合以支持持续适应
  4. 切入角度:人类具备回顾式反思能力——评估先前行为、跨尝试比较结果、诊断成败、在挫折中发现有前景的方向。可以将这种能力引入 Agent RL 训练
  5. 核心idea:在每个 episode 结束后进行回顾式反思,产生双重内在反馈:(i) 内在数值反馈跟踪相对历史的子任务完成进度以鼓励探索;(ii) 内在语言反馈将经验提炼为可复用的教训存入记忆库

方法详解

整体框架

RetroAgent 是一个在线 RL 框架,核心包含: - 回顾式自我反思机制:episode 结束后分析轨迹,生成反思元组 \(z=(\phi, c, m)\)(潜力分数、成功预测、自然语言教训) - 双重内在反馈:数值反馈引导探索,语言反馈引导经验利用 - SimUtil-UCB 检索策略:从记忆库中检索相关教训辅助决策

关键设计

模块 1:内在数值反馈 (Capability-Evolution Reward)

  • 做什么:将反思产生的潜力分数转化为 shaped intrinsic reward,衡量相对历史最佳的子任务完成增量
  • 核心思路\(R^{int}_k = \max(0, \phi_{(x,\tau),k} - \Phi_x)\),其中 \(\Phi_x\) 是历史最高组均值成功率(单调递增基线)
  • 设计动机:要求潜力分数超过历史最佳才获得内在奖励,促进持续策略改进,防止被孤立的非可复制成功主导

模块 2:内在语言反馈 (Reflection Memory)

  • 做什么:维护一个持久记忆缓冲区 \(\mathcal{B}\),存储任务指令、自然语言教训、效用分数、检索次数等
  • 核心思路:使用 SimUtil-UCB 策略检索教训,综合语义相关性 (cosine similarity)、效用分数 (EMA 更新) 和探索覆盖 (UCB 探索奖励)
  • 设计动机:纯数值信号缺乏语义丰富度,无法指导 Agent "如何改进";语言教训提供可操作的行动指导

模块 3:自我反思的两种变体

  • In-Context 变体:使用对比归纳——用成功/失败对比轨迹增强反思
  • RL-Trained 变体:引入反思奖励 \(R^{reflect} = R^{ext} \cdot \mathbb{1}(c = I^{ext})\),反思能力与决策策略联合优化

损失函数 / 训练策略

  • 决策策略使用 GRPO 优化,结合 clipped surrogate + KL 正则化
  • 每个任务生成 N 条轨迹:N/2 来自基础策略,N/2 来自记忆增强策略
  • 联合优化目标(RL-Trained 变体):
\[\mathcal{J}_{\text{RetroAgent}}(\theta) = \underbrace{\mathcal{J}_{\text{Decision-Making}}}_{\text{内外奖励引导}} + \underbrace{\lambda_{\text{reflect}} \cdot \mathcal{J}_{\text{Reflection}}}_{\text{反思能力优化}}\]
  • 反思策略使用 REINFORCE 优化

实验关键数据

主实验:四个 Agent 基准任务 (Success Rate %)

方法 ALFWorld WebShop (Score) WebShop (Succ) Sokoban MineSweeper
Zero-Shot 16.9 4.5 0.8 2.6 6.5
ReAct 31.2 46.2 19.5 3.9 7.0
Reflexion 42.7 58.1 28.8 4.3 7.4
GRPO 77.3 75.5 66.9 11.2 39.3
GiGPO 90.8 84.4 72.8 21.9 41.1
LaMer (Meta-RL) 82.3 61.7 14.3 33.3
SkillRL (w/ Teacher) 89.9 85.2 72.7
RetroAgent (IC) 91.7 87.6 78.9 32.6 47.9
RetroAgent (RL) 95.6 88.9 82.3 38.3 48.2

消融实验

对比分析(从论文描述推断): - 双重反馈 > 单独数值反馈(vs. GRPO w/ EMPG) - 双重反馈 > 单独语言反馈(vs. MemRL, SimpleMem+GRPO) - 提炼教训 > 原始轨迹(vs. EvolveR: 82.3% vs. 17.6% on WebShop) - RL-Trained 反思 > In-Context 反思(95.6% vs. 91.7% on ALFWorld)

关键发现

  • RetroAgent 在所有四个 benchmark 上均达到 SOTA,相比 GRPO 分别提升 +18.3% (ALFWorld)、+15.4% (WebShop)、+27.1% (Sokoban)、+8.9% (MineSweeper)
  • 提炼后的教训显著优于原始轨迹(78.9-82.3% vs. 17.6% on WebShop),说明噪声过滤的重要性
  • RL-Trained 反思变体进一步提升性能,说明反思能力可以被训练优化
  • 在 OOD 设置下(ALFWorld unseen rooms)仍展现强泛化能力
  • 测试时适应能力强:Discovery@k 指标随 k 增长快速提升

亮点与洞察

  1. 双重内在反馈的互补性设计:数值反馈"量化进步"鼓励探索,语言反馈"解释如何改进"利用经验,两者缺一不可
  2. SimUtil-UCB 检索策略:将 UCB 算法引入记忆检索,优雅地平衡了语义相关性、历史效用和探索覆盖
  3. 从"解题"到"演进"的范式转变:超越传统 RL 的一次性求解目标,建立了持续学习和自我进化的框架
  4. 可训练的反思能力:RL-Trained 变体证明反思本身是一种可优化的技能,反思质量直接影响学习效率

局限性 / 可改进方向

  1. 自我反思的质量依赖于 LLM 的自我评估能力,低能力模型可能产生不准确的潜力分数和教训
  2. 记忆缓冲区的大小和管理策略(何时淘汰过时教训)未深入探讨
  3. 实验使用 Qwen-2.5-7B 和 Llama-3.1-8B,更大规模模型上的表现未验证
  4. 四个任务均为文本/符号环境,视觉 Agent 或更复杂的真实世界环境待验证
  5. 对比轨迹的选择策略(成功 vs. 失败)对反思质量的影响可深入分析

相关工作与启发

  • GRPO / GiGPO:RetroAgent 建立在 GRPO 之上,表明强基础 RL 算法 + 内在反馈可获得显著增益
  • Reflexion:经典的 in-context 反思方法,RetroAgent 将反思从推理时提升到训练时
  • LaMer:Meta-RL 框架,RetroAgent 通过内在反馈实现了类似的跨 episode 适应
  • 启发:回顾式双重反馈(数值 + 语言)的设计范式可推广到其他需要持续学习的 Agent 场景

评分

  • ⭐⭐⭐⭐ 新颖性:双重内在反馈的设计巧妙,SimUtil-UCB 检索策略有创意,但核心思想(反思+记忆)并非全新
  • ⭐⭐⭐⭐⭐ 实验充分度:四个多样化环境、多个 baseline 对比、消融实验完整、OOD 和测试时适应分析
  • ⭐⭐⭐⭐ 写作质量:数学推导清晰,框架介绍系统性好,图表信息量大
  • ⭐⭐⭐⭐ 价值:为 LLM Agent 持续学习提供了实用的框架,SOTA 结果验证了设计的有效性