跳转至

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

会议: NeurIPS 2025
arXiv: 2505.18098
代码: 项目页面
领域: NLP理解 / LLM Agent规划
关键词: 离线强化学习, 目标条件价值函数, LLM智能体规划, 自然语言评论家, 多轮交互任务

一句话总结

提出PNLC方法,通过训练轻量级目标条件价值函数作为"自然语言评论家",在推理步骤层面引导LLM智能体进行多轮规划和自我精化,无需直接微调或推理时搜索,在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。

研究背景与动机

  1. 领域现状:LLM在目标导向的复杂交互任务(如协商、劝服、社交推理游戏)中需要长视野推理和战略性行为。现有方法分两类:(a) 多轮RL微调——样本效率低、计算成本高;(b) 推理时搜索(如MCTS)——需多次LLM调用,延迟高。

  2. 现有痛点:RL微调无法应用于仅暴露API的前沿模型(GPT-4o等);MCTS搜索在WebShop上需46秒/样本;LLM自我评估过于乐观,难以有效自我精化。

  3. 核心矛盾:如何在不直接微调LLM、不大幅增加推理成本的前提下,赋予LLM智能体复杂交互任务中的长视野规划能力?

  4. 本文要解决什么:需要一个轻量级、可学习的模块,在LLM推理过程中提供关于多种可能结果的价值评估,使LLM能够有效自我精化。

  5. 切入角度:不训练策略(policy),而是训练评论家(critic)。用离线RL训练目标条件价值函数,推理时将其用作"自然语言评论家",为LLM提供丰富的结果评估信息。

  6. 核心idea一句话:在推理步骤(thought)层面训练轻量MLP价值函数预测目标达成概率,推理时通过自然语言评论家生成多个正/负目标及其概率,引导LLM自我精化高层策略,无需搜索。

方法详解

整体框架

PNLC分为离线训练和推理时规划两阶段。离线阶段:从轨迹数据中提取总结→嵌入→训练目标条件价值函数。推理阶段:当前状态+建议思路→评论家生成目标+价值→LLM自我精化。

形式化:定义MDP为 \(M=(\mathcal{S}, \mathcal{A}, P, r, \rho, \gamma)\)。智能体动作 \(a_t\) 分解为思路 \(a_t^{\text{tht}}\) 和环境动作 \(a_t^{\text{env}}\)。目标条件Q值函数 \(Q(s, a^{\text{tht}}, g)\) 预测从状态 \(s\) 采取思路后达成目标 \(g\) 的概率。

关键设计

  1. 离线目标条件价值函数训练
  2. 做什么:从任务相关轨迹数据集中学习目标条件价值函数
  3. 核心思路:(a) 轨迹总结——将完整交互历史压缩为决策相关的简洁描述;(b) 嵌入——用GPT-3嵌入层将文本转为低维向量;(c) 目标采样——从每条轨迹随机采样未来状态作为目标。基于IQL算法训练,损失函数:\(L_Q = \mathbb{E}[(r(s,g) + \gamma\hat{V}(s',g) - Q(s,a^{\text{tht}},g))^2]\)
  4. 设计动机:轨迹总结降低决策空间复杂度;嵌入使价值函数仅需2层MLP(<1M参数);随机目标采样支持多维度评估

  5. 推理时自然语言评论家

  6. 做什么:为LLM生成关于可能结果的自然语言反馈
  7. 核心思路:(a) LLM生成4个假设目标(2正面+2负面);(b) 价值函数评估每个目标的达成概率;(c) 转为自然语言描述(如"有70%概率用户会接受,30%风险被拒绝");(d) LLM基于反馈迭代精化思路(最多2轮)
  8. 设计动机:目标条件值函数提供多维度反馈,比标量值更信息丰富;正/负目标帮助LLM识别风险

  9. 轻量级MLP价值函数

  10. 做什么:使用极简架构支持快速训练和推理
  11. 核心思路:输入为状态/思路/目标嵌入的拼接,2层全连接网络(128×128),输出标量概率
  12. 设计动机:API模型无法使用等价于LLM大小的Transformer作为价值函数;<1M参数的MLP在嵌入已含语义信息的前提下足够表达

损失函数 / 训练策略

基于IQL(Implicit Q-Learning)的目标条件变体。Q函数用MSE损失,V函数用expectile损失(\(\tau=0.8\))。仅需2.5k条低质量轨迹(GPT-3.5生成)即可训练有效评论家。

实验关键数据

主实验

方法 WebShop评分 Avalon胜率 劝服捐赠额 推理时间
ReAct 55.1 21.0% 0.54 5s
Reflexion 60.8 26.0% 0.54 ~15s
LATS (n=30) 74.9 38.0% 0.78 ~46s
Agent Q (n=30) 77.1 ~46s
Online ArCHer 62.3 19.0% 0.36
PNLC (ours) 78.2 47.0% 0.87 5-6s

消融实验

配置 WebShop Avalon 劝服
PNLC完整 78.2 47.0% 0.87
w/o 目标条件(仅标量值) 55.4 25.0% 0.53
w/o 精化步骤 55.6 28.0% 0.61
ReAct+Replan(LLM直接评估) 59.1 22.0% 0.62

关键发现

  • PNLC在三个差异化任务上均达SOTA,推理时间仅5-6s,比LATS(n=30)快~8倍
  • 目标条件是核心:去掉目标条件后性能降至与ReAct无显著差异(55.4 vs 55.1),说明多维目标反馈是关键
  • 离线学习优于LLM直觉:ReAct+Replan让LLM自行评估目标概率,性能远低于数据驱动的评论家(59.1 vs 78.2),证明LLM对长视野任务中目标可达性的估计过于乐观
  • RL微调效果最差:Online ArCHer使用小模型微调,性能低于所有方法

亮点与洞察

  • "训练评论家不训练策略"的范式:巧妙规避了API模型无法微调的限制,将学习负担转移到轻量模块上,实际部署价值极高
  • 推理步骤层面的抽象:在"思路"(高层策略意图)而非"动作"(具体文本)层面学习价值函数,大幅降低决策空间复杂度
  • 目标条件值函数的可解释反馈:多个正/负目标及概率的自然语言描述,比标量值更利于LLM理解和利用

局限性 / 可改进方向

  • 任务特定的价值函数:每个新任务需独立训练价值函数,跨任务迁移是开放问题
  • 依赖LLM的目标生成和精化能力:在超出LLM知识范围的专业领域可能失效
  • 未进行数据敏感性分析:多少轨迹、什么质量的轨迹足以训练有效评论家?
  • 价值函数的校准性:概率估计是否可信,未进行calibration分析

相关工作与启发

  • vs RL微调(ArCHer):本文无需微调LLM参数,支持API模型,训练成本低几个数量级
  • vs 推理时搜索(LATS/MCTS):推理时间常数级vs搜索的指数级增长,实际部署中差距巨大
  • vs 自我精化(Reflexion):Reflexion需多轮完整轨迹回放,本文仅需单步精化+轻量评论家

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将评论家学习与LLM规划结合的"无搜索规划"范式首创,推理步骤层面的目标条件值函数新颖
  • 实验充分度: ⭐⭐⭐⭐ 三个差异化任务全面评估,消融细致,但缺少数据敏感性分析
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表直观
  • 价值: ⭐⭐⭐⭐⭐ 支持任何API LLM,推理效率突破性提升,实际部署价值极高