PlanU: Large Language Model Reasoning through Planning under Uncertainty¶
会议: NeurIPS 2025
arXiv: 2510.18442
作者: Ziwei Deng, Mian Deng (厦门大学), Chenjing Liang, Zeming Gao, Chennan Ma, Chenxing Lin, Haipeng Zhang, Songzhu Mei (国防科大), Cheng Wang, Siqi Shen (厦门大学)
代码: GitHub
领域: time_series
关键词: LLM决策, 不确定性, 蒙特卡洛树搜索, 分位数分布, 探索与利用
一句话总结¶
提出PlanU——一种在MCTS中用分位数分布建模节点回报、并通过Upper Confidence Bounds with Curiosity (UCC)分数平衡探索与利用的LLM决策方法,首次系统性地同时处理LLM不确定性和环境不确定性,在多个随机环境基准上显著优于现有方法。
研究背景与动机¶
问题背景¶
LLM在推理和决策任务中取得了显著成功,但在不确定性环境下的表现仍然不佳。LLM决策面临两类不确定性:(1) LLM不确定性——由LLM的随机采样过程导致,同一提示可能产生不同输出;(2) 环境不确定性——由随机状态转移导致,同一动作可能产生不同的下一状态。
已有工作的不足¶
- CoT/Self-Consistency/ToT/RAP等方法通过多次采样或树搜索应对LLM不确定性,但完全忽略环境不确定性
- DeLLMa考虑了环境不确定性,但仅适用于单步决策,无法处理多步交互任务
- 标准MCTS(如RAP中使用的)假设确定性转移,遇到随机环境时会选择最频繁出现的状态作为子节点,导致次优决策
- 简单的集成方案(如在提示中加入不确定性考虑)效果极差——论文通过股票投资任务实验验证了这一点
核心动机¶
在真实世界中,环境随机性无处不在——即使是确定性环境中的状态混叠(如部分可观测性)也会引入有效的随机性。需要一种系统性方法同时处理LLM不确定性和环境不确定性。
方法详解¶
整体框架¶
PlanU基于MCTS构建,核心创新有两点:(1) 用分位数分布替代标准MCTS中的均值来建模节点回报;(2) 设计UCC分数引导探索。
分位数分布建模¶
标准MCTS用期望值\(Q(s,a)\)表示节点价值。PlanU将其替换为分位数分布\(Z(s,a)\):
其中\(\theta(s,a,\tau_i)\)是第\(i\)个分位数值,\(n_q\)是分位数数量。偏斜的分位数分布指示高不确定性,而均匀分布指示低不确定性。
四阶段树搜索¶
- 选择(Selection):从根节点出发,按UCC分数选择子动作节点 \(a^* = \arg\max_{a_t} UCC(s_t, a_t)\)
- 扩展(Expansion):展开叶节点的动作节点,用LLM生成概率\(\pi(s_t,a_t) = \prod_{i=1}^n p(t_i|c)\)初始化分位数分布
- 模拟(Simulation):从新节点向终止状态模拟多条轨迹,获取实际环境反馈
- 反向传播(Back-propagation):沿路径用分位数回归(QR)更新分布,目标分布为\(y(s_{t+1},a_{t+1}) = r + \gamma Z(s_{t+1},a)\),损失函数为分位数Huber损失
UCC分数设计¶
UCC分数结合了价值分布和状态新颖性:
- \(\psi[Z(s_t,a_t)]\):将分位数分布映射为标量的算子,默认为期望\(\mathbb{E}[Z(s_t,a_t)]\),也可考虑分布展幅
- \(r_i(s_t)\):新颖性奖励,借鉴Random Network Distillation (RND)思想
新颖性奖励与LLM不确定性处理¶
新颖性奖励\(r_i(s_t) = |\hat{f}(e(s_t)) - f(e(s_t))|^2\),其中: - \(f\)是固定随机初始化的目标网络,\(\hat{f}\)是可训练的预测网络 - \(e(\cdot)\)是文本编码器,将文本状态映射为特征向量,解决LLM对同一状态生成不同文本描述的问题(如"人在桌子右边"与"桌子在人左边"语义相同但文本不同) - 通过维护已访问状态缓冲区\(\mathcal{B}\)来训练预测网络
实验关键数据¶
实验1:股票投资任务(验证直觉)¶
简单投资场景:股票A固定收益0.9;股票B有60%概率获利1,40%概率获利0(期望0.6)。
| 方法 | 平均收益 | 是否做出最优决策 |
|---|---|---|
| CoT | ~0.6 | ✗ (选B) |
| CoT+U (加不确定性提示) | ~0.6 | ✗ |
| DeLLMa | ~0.6 | ✗ |
| RAP | ~0.6 | ✗ (MCTS用最频繁状态,误判B的期望) |
| RAP+U | ~0.6 | ✗ |
| Reflexion | ~0.6 | ✗ |
| PlanU | ~0.9 | ✓ (正确学到\(\mathbb{E}[Z(s_0,b)]=0.6\),选A) |
RAP失败的原因:标准MCTS取最频繁next state,对B总是取reward=1的状态(出现概率60%),导致高估。
实验2:Blocksworld基准(随机环境)¶
积木堆叠任务,动作有20%失败率。按最少步数分类,三种8B级LLM上的成功率:
| 模型 | 方法 | 2-step | 4-step | 6-step | 8-step |
|---|---|---|---|---|---|
| Mistral-7B | CoT | 0.514 | 0.276 | 0.131 | 0.000 |
| RAP | 0.892 | 0.514 | 0.166 | 0.000 | |
| RAP-E | 1.000 | 0.592 | 0.338 | 0.084 | |
| PlanU | 1.000 | 0.803 | 0.559 | 0.217 | |
| LLama3.1-8B | CoT | 0.351 | 0.237 | 0.124 | 0.014 |
| RAP | 0.946 | 0.553 | 0.255 | 0.175 | |
| RAP-E | 0.946 | 0.763 | 0.414 | 0.140 | |
| PlanU | 1.000 | 0.842 | 0.524 | 0.238 | |
| DeepSeek-R1-8B | CoT | 0.405 | 0.158 | 0.152 | 0.077 |
| RAP | 1.000 | 0.724 | 0.200 | 0.196 | |
| RAP-E | 1.000 | 0.697 | 0.448 | 0.175 | |
| PlanU | 1.000 | 0.816 | 0.455 | 0.196 |
PlanU在几乎所有难度级别和模型上都取得最佳成功率,尤其在4-step和6-step任务上优势明显。
实验3:TravelPlanner & WebShop¶
| 基准 | 指标 | CoT | RAP | LATS | PlanU |
|---|---|---|---|---|---|
| TravelPlanner | 任务完成率 | 0.156 | 0.222 | 0.234 | 0.378 |
| TravelPlanner | 约束满足率 | 0.022 | 0.044 | 0.089 | 0.222 |
| WebShop | 平均奖励 | 0.46 | 0.41 | 0.57 | 0.73 |
| WebShop | 成功率 | 0.1 | 0.2 | 0.3 | 0.5 |
PlanU在TravelPlanner上任务完成率提升61%(vs LATS),WebShop成功率提升67%。
消融实验¶
- 去除分位数分布(PlanU w/o dist):在Tomato Lettuce Salad上无法找到最优路径
- 去除UCC(PlanU w/o ucc):同样导致失败
- LLM不确定性鲁棒性测试:通过Prompt Shuffling和Prompt Injection引入LLM不确定性,PlanU仅有轻微收敛速度下降,表现出强鲁棒性
亮点¶
- 问题定义清晰:首次系统区分并同时处理LLM不确定性和环境不确定性,通过简单股票投资实验直观展示了现有方法的根本缺陷
- 分位数分布建模:用分位数分布替代均值建模MCTS节点回报,既能捕获不确定性的形状(偏斜vs均匀),又可利用分位数回归进行稳健更新
- UCC设计巧妙:融合RND思想的新颖性奖励 + 文本编码器消除LLM文本不确定性,形成了完整的探索机制
- 跨场景泛化能力强:在5个基准(积木堆叠、烹饪、家居、旅行规划、网购)和3种LLM上均表现最优
局限与展望¶
- 计算开销大:分位数分布维护 + RND网络训练 + 文本编码器推理,相比标准MCTS增加了显著开销,论文未报告运行时间对比
- 环境不确定性是人工注入的:Blocksworld等原始环境是确定性的,通过添加固定失败率模拟随机性,未在天然随机环境中验证
- 仅适用于文本环境:所有环境的状态和动作都是文本描述,未涉及视觉或连续状态空间
- 超参数敏感性未充分探讨:分位数数量\(n_q\)、UCC系数\(c_1\)等关键超参的影响未充分消融
- 规模有限:仅在7B-8B级别LLM上实验,未验证更大模型是否仍需要此框架
- 分位数回归的收敛性分析缺失:在有限MCTS迭代下,分位数分布的收敛保证不明
与相关工作的对比¶
- RAP (Hao et al., EMNLP 2023):LLM-MCTS框架,但假设确定性转移,通过多次查询取最频繁状态处理不确定性,本文证明该策略在随机环境下导致次优
- LATS (Zhou et al., ICML 2024):集成自反思和API调用的LLM-MCTS,同样不处理环境不确定性,在TravelPlanner和WebShop上均逊于PlanU
- DeLLMa (Liu et al., ICLR 2025):基于经典决策理论的单步LLM决策,不适用于多步交互任务
- RAP-D / RAP-E:将RAP中的MCTS替换为DMCTS/EMCTS(考虑不确定性的MCTS变体),表现优于RAP但仍逊于PlanU
- QR-DQN (Dabney et al.):RL中的分位数分布方法,PlanU借鉴其分位数回归思想但应用于LLM-MCTS场景
评分¶
- 新颖性: ⭐⭐⭐⭐ — 分位数分布+MCTS+LLM的结合新颖,UCC设计有创造性
- 实验充分度: ⭐⭐⭐⭐ — 5个基准、3种LLM、多种消融,涵盖面广
- 写作质量: ⭐⭐⭐⭐ — 股票投资的motivating example直观清晰,整体逻辑流畅
- 价值: ⭐⭐⭐⭐ — 填补LLM决策中环境不确定性处理的空白,对LLM Agent在真实随机环境部署有实际指导意义
相关论文¶
- [ACL 2026] Learning Uncertainty from Sequential Internal Dispersion in Large Language Models
- [NeurIPS 2025] Diffusion Transformers for Imputation: Statistical Efficiency and Uncertainty Quantification
- [NeurIPS 2025] MASFIN: A Multi-Agent System for Decomposed Financial Reasoning and Forecasting
- [NeurIPS 2025] Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning
- [NeurIPS 2025] CausalDynamics: A Large-Scale Benchmark for Structural Discovery of Dynamical Causal Models