Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL¶

会议: NeurIPS 2025
arXiv: 2505.18098
代码: 项目页面
领域: NLP理解 / LLM Agent规划
关键词: 离线强化学习, 目标条件价值函数, LLM智能体规划, 自然语言评论家, 多轮交互任务

一句话总结¶

提出PNLC方法，通过训练轻量级目标条件价值函数作为"自然语言评论家"，在推理步骤层面引导LLM智能体进行多轮规划和自我精化，无需直接微调或推理时搜索，在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。

研究背景与动机¶

领域现状：LLM在目标导向的复杂交互任务（如协商、劝服、社交推理游戏）中需要长视野推理和战略性行为。现有方法分两类：(a) 多轮RL微调——样本效率低、计算成本高；(b) 推理时搜索（如MCTS）——需多次LLM调用，延迟高。
现有痛点：RL微调无法应用于仅暴露API的前沿模型（GPT-4o等）；MCTS搜索在WebShop上需46秒/样本；LLM自我评估过于乐观，难以有效自我精化。
核心矛盾：如何在不直接微调LLM、不大幅增加推理成本的前提下，赋予LLM智能体复杂交互任务中的长视野规划能力？
本文要解决什么：需要一个轻量级、可学习的模块，在LLM推理过程中提供关于多种可能结果的价值评估，使LLM能够有效自我精化。
切入角度：不训练策略（policy），而是训练评论家（critic）。用离线RL训练目标条件价值函数，推理时将其用作"自然语言评论家"，为LLM提供丰富的结果评估信息。
核心idea一句话：在推理步骤（thought）层面训练轻量MLP价值函数预测目标达成概率，推理时通过自然语言评论家生成多个正/负目标及其概率，引导LLM自我精化高层策略，无需搜索。

方法详解¶

整体框架¶

PNLC分为离线训练和推理时规划两阶段。离线阶段：从轨迹数据中提取总结→嵌入→训练目标条件价值函数。推理阶段：当前状态+建议思路→评论家生成目标+价值→LLM自我精化。

形式化：定义MDP为 \(M=(\mathcal{S}, \mathcal{A}, P, r, \rho, \gamma)\)。智能体动作 \(a_t\) 分解为思路 \(a_t^{\text{tht}}\) 和环境动作 \(a_t^{\text{env}}\)。目标条件Q值函数 \(Q(s, a^{\text{tht}}, g)\) 预测从状态 \(s\) 采取思路后达成目标 \(g\) 的概率。

关键设计¶

离线目标条件价值函数训练：
做什么：从任务相关轨迹数据集中学习目标条件价值函数
核心思路：(a) 轨迹总结——将完整交互历史压缩为决策相关的简洁描述；(b) 嵌入——用GPT-3嵌入层将文本转为低维向量；(c) 目标采样——从每条轨迹随机采样未来状态作为目标。基于IQL算法训练，损失函数：\(L_Q = \mathbb{E}[(r(s,g) + \gamma\hat{V}(s',g) - Q(s,a^{\text{tht}},g))^2]\)
设计动机：轨迹总结降低决策空间复杂度；嵌入使价值函数仅需2层MLP（<1M参数）；随机目标采样支持多维度评估
推理时自然语言评论家：
做什么：为LLM生成关于可能结果的自然语言反馈
核心思路：(a) LLM生成4个假设目标（2正面+2负面）；(b) 价值函数评估每个目标的达成概率；(c) 转为自然语言描述（如"有70%概率用户会接受，30%风险被拒绝"）；(d) LLM基于反馈迭代精化思路（最多2轮）
设计动机：目标条件值函数提供多维度反馈，比标量值更信息丰富；正/负目标帮助LLM识别风险
轻量级MLP价值函数：
做什么：使用极简架构支持快速训练和推理
核心思路：输入为状态/思路/目标嵌入的拼接，2层全连接网络（128×128），输出标量概率
设计动机：API模型无法使用等价于LLM大小的Transformer作为价值函数；<1M参数的MLP在嵌入已含语义信息的前提下足够表达

损失函数 / 训练策略¶

基于IQL（Implicit Q-Learning）的目标条件变体。Q函数用MSE损失，V函数用expectile损失（\(\tau=0.8\)）。仅需2.5k条低质量轨迹（GPT-3.5生成）即可训练有效评论家。

实验关键数据¶

主实验¶

方法	WebShop评分	Avalon胜率	劝服捐赠额	推理时间
ReAct	55.1	21.0%	0.54	5s
Reflexion	60.8	26.0%	0.54	~15s
LATS (n=30)	74.9	38.0%	0.78	~46s
Agent Q (n=30)	77.1	—	—	~46s
Online ArCHer	62.3	19.0%	0.36	—
PNLC (ours)	78.2	47.0%	0.87	5-6s

消融实验¶

配置	WebShop	Avalon	劝服
PNLC完整	78.2	47.0%	0.87
w/o 目标条件（仅标量值）	55.4	25.0%	0.53
w/o 精化步骤	55.6	28.0%	0.61
ReAct+Replan（LLM直接评估）	59.1	22.0%	0.62

关键发现¶

PNLC在三个差异化任务上均达SOTA，推理时间仅5-6s，比LATS(n=30)快~8倍
目标条件是核心：去掉目标条件后性能降至与ReAct无显著差异（55.4 vs 55.1），说明多维目标反馈是关键
离线学习优于LLM直觉：ReAct+Replan让LLM自行评估目标概率，性能远低于数据驱动的评论家（59.1 vs 78.2），证明LLM对长视野任务中目标可达性的估计过于乐观
RL微调效果最差：Online ArCHer使用小模型微调，性能低于所有方法

亮点与洞察¶

"训练评论家不训练策略"的范式：巧妙规避了API模型无法微调的限制，将学习负担转移到轻量模块上，实际部署价值极高
推理步骤层面的抽象：在"思路"（高层策略意图）而非"动作"（具体文本）层面学习价值函数，大幅降低决策空间复杂度
目标条件值函数的可解释反馈：多个正/负目标及概率的自然语言描述，比标量值更利于LLM理解和利用

局限性 / 可改进方向¶

任务特定的价值函数：每个新任务需独立训练价值函数，跨任务迁移是开放问题
依赖LLM的目标生成和精化能力：在超出LLM知识范围的专业领域可能失效
未进行数据敏感性分析：多少轨迹、什么质量的轨迹足以训练有效评论家？
价值函数的校准性：概率估计是否可信，未进行calibration分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将评论家学习与LLM规划结合的"无搜索规划"范式首创，推理步骤层面的目标条件值函数新颖
实验充分度: ⭐⭐⭐⭐ 三个差异化任务全面评估，消融细致，但缺少数据敏感性分析
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表直观
价值: ⭐⭐⭐⭐⭐ 支持任何API LLM，推理效率突破性提升，实际部署价值极高