Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL¶
会议: NeurIPS 2025
arXiv: 2505.18098
代码: 项目页面
领域: NLP理解 / LLM Agent规划
关键词: 离线强化学习, 目标条件价值函数, LLM智能体规划, 自然语言评论家, 多轮交互任务
一句话总结¶
提出PNLC方法,通过训练轻量级目标条件价值函数作为"自然语言评论家",在推理步骤层面引导LLM智能体进行多轮规划和自我精化,无需直接微调或推理时搜索,在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。
研究背景与动机¶
-
领域现状:LLM在目标导向的复杂交互任务(如协商、劝服、社交推理游戏)中需要长视野推理和战略性行为。现有方法分两类:(a) 多轮RL微调——样本效率低、计算成本高;(b) 推理时搜索(如MCTS)——需多次LLM调用,延迟高。
-
现有痛点:RL微调无法应用于仅暴露API的前沿模型(GPT-4o等);MCTS搜索在WebShop上需46秒/样本;LLM自我评估过于乐观,难以有效自我精化。
-
核心矛盾:如何在不直接微调LLM、不大幅增加推理成本的前提下,赋予LLM智能体复杂交互任务中的长视野规划能力?
-
本文要解决什么:需要一个轻量级、可学习的模块,在LLM推理过程中提供关于多种可能结果的价值评估,使LLM能够有效自我精化。
-
切入角度:不训练策略(policy),而是训练评论家(critic)。用离线RL训练目标条件价值函数,推理时将其用作"自然语言评论家",为LLM提供丰富的结果评估信息。
-
核心idea一句话:在推理步骤(thought)层面训练轻量MLP价值函数预测目标达成概率,推理时通过自然语言评论家生成多个正/负目标及其概率,引导LLM自我精化高层策略,无需搜索。
方法详解¶
整体框架¶
PNLC分为离线训练和推理时规划两阶段。离线阶段:从轨迹数据中提取总结→嵌入→训练目标条件价值函数。推理阶段:当前状态+建议思路→评论家生成目标+价值→LLM自我精化。
形式化:定义MDP为 \(M=(\mathcal{S}, \mathcal{A}, P, r, \rho, \gamma)\)。智能体动作 \(a_t\) 分解为思路 \(a_t^{\text{tht}}\) 和环境动作 \(a_t^{\text{env}}\)。目标条件Q值函数 \(Q(s, a^{\text{tht}}, g)\) 预测从状态 \(s\) 采取思路后达成目标 \(g\) 的概率。
关键设计¶
- 离线目标条件价值函数训练:
- 做什么:从任务相关轨迹数据集中学习目标条件价值函数
- 核心思路:(a) 轨迹总结——将完整交互历史压缩为决策相关的简洁描述;(b) 嵌入——用GPT-3嵌入层将文本转为低维向量;(c) 目标采样——从每条轨迹随机采样未来状态作为目标。基于IQL算法训练,损失函数:\(L_Q = \mathbb{E}[(r(s,g) + \gamma\hat{V}(s',g) - Q(s,a^{\text{tht}},g))^2]\)
-
设计动机:轨迹总结降低决策空间复杂度;嵌入使价值函数仅需2层MLP(<1M参数);随机目标采样支持多维度评估
-
推理时自然语言评论家:
- 做什么:为LLM生成关于可能结果的自然语言反馈
- 核心思路:(a) LLM生成4个假设目标(2正面+2负面);(b) 价值函数评估每个目标的达成概率;(c) 转为自然语言描述(如"有70%概率用户会接受,30%风险被拒绝");(d) LLM基于反馈迭代精化思路(最多2轮)
-
设计动机:目标条件值函数提供多维度反馈,比标量值更信息丰富;正/负目标帮助LLM识别风险
-
轻量级MLP价值函数:
- 做什么:使用极简架构支持快速训练和推理
- 核心思路:输入为状态/思路/目标嵌入的拼接,2层全连接网络(128×128),输出标量概率
- 设计动机:API模型无法使用等价于LLM大小的Transformer作为价值函数;<1M参数的MLP在嵌入已含语义信息的前提下足够表达
损失函数 / 训练策略¶
基于IQL(Implicit Q-Learning)的目标条件变体。Q函数用MSE损失,V函数用expectile损失(\(\tau=0.8\))。仅需2.5k条低质量轨迹(GPT-3.5生成)即可训练有效评论家。
实验关键数据¶
主实验¶
| 方法 | WebShop评分 | Avalon胜率 | 劝服捐赠额 | 推理时间 |
|---|---|---|---|---|
| ReAct | 55.1 | 21.0% | 0.54 | 5s |
| Reflexion | 60.8 | 26.0% | 0.54 | ~15s |
| LATS (n=30) | 74.9 | 38.0% | 0.78 | ~46s |
| Agent Q (n=30) | 77.1 | — | — | ~46s |
| Online ArCHer | 62.3 | 19.0% | 0.36 | — |
| PNLC (ours) | 78.2 | 47.0% | 0.87 | 5-6s |
消融实验¶
| 配置 | WebShop | Avalon | 劝服 |
|---|---|---|---|
| PNLC完整 | 78.2 | 47.0% | 0.87 |
| w/o 目标条件(仅标量值) | 55.4 | 25.0% | 0.53 |
| w/o 精化步骤 | 55.6 | 28.0% | 0.61 |
| ReAct+Replan(LLM直接评估) | 59.1 | 22.0% | 0.62 |
关键发现¶
- PNLC在三个差异化任务上均达SOTA,推理时间仅5-6s,比LATS(n=30)快~8倍
- 目标条件是核心:去掉目标条件后性能降至与ReAct无显著差异(55.4 vs 55.1),说明多维目标反馈是关键
- 离线学习优于LLM直觉:ReAct+Replan让LLM自行评估目标概率,性能远低于数据驱动的评论家(59.1 vs 78.2),证明LLM对长视野任务中目标可达性的估计过于乐观
- RL微调效果最差:Online ArCHer使用小模型微调,性能低于所有方法
亮点与洞察¶
- "训练评论家不训练策略"的范式:巧妙规避了API模型无法微调的限制,将学习负担转移到轻量模块上,实际部署价值极高
- 推理步骤层面的抽象:在"思路"(高层策略意图)而非"动作"(具体文本)层面学习价值函数,大幅降低决策空间复杂度
- 目标条件值函数的可解释反馈:多个正/负目标及概率的自然语言描述,比标量值更利于LLM理解和利用
局限性 / 可改进方向¶
- 任务特定的价值函数:每个新任务需独立训练价值函数,跨任务迁移是开放问题
- 依赖LLM的目标生成和精化能力:在超出LLM知识范围的专业领域可能失效
- 未进行数据敏感性分析:多少轨迹、什么质量的轨迹足以训练有效评论家?
- 价值函数的校准性:概率估计是否可信,未进行calibration分析
相关工作与启发¶
- vs RL微调(ArCHer):本文无需微调LLM参数,支持API模型,训练成本低几个数量级
- vs 推理时搜索(LATS/MCTS):推理时间常数级vs搜索的指数级增长,实际部署中差距巨大
- vs 自我精化(Reflexion):Reflexion需多轮完整轨迹回放,本文仅需单步精化+轻量评论家
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将评论家学习与LLM规划结合的"无搜索规划"范式首创,推理步骤层面的目标条件值函数新颖
- 实验充分度: ⭐⭐⭐⭐ 三个差异化任务全面评估,消融细致,但缺少数据敏感性分析
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表直观
- 价值: ⭐⭐⭐⭐⭐ 支持任何API LLM,推理效率突破性提升,实际部署价值极高