From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning¶
会议: ICLR 2026
arXiv: 2602.04326
代码: 有(匿名补充材料)
领域: 机器人
关键词: 不确定性感知规划, LLM多智能体协作, 决策树, 部分可观测环境, 通信优化
一句话总结¶
提出 PCE(Planner-Composer-Evaluator)框架,将 LLM 推理链中隐含的环境假设显式提取并组织为决策树,通过似然度-增益-成本评分实现不确定性感知的行动选择,大幅减少多智能体协作中的通信开销。
研究背景与动机¶
在去中心化、部分可观测的多智能体协作场景中(如两个机器人协作准备餐食),每个智能体只能感知环境的一部分,面临关于隐藏物体和协作者意图的普遍不确定性。
现有 LLM 驱动的多智能体系统存在根本性问题:
- 过度依赖通信:CoELA、REVECA、CaPo、CoTS 等方法通过反复自然语言对话来验证计划、交换信息和迭代优化,导致大量 token 和时间消耗
- 干扰人类工作流:当协作者是人类时,频繁的询问和报告会打断已建立的工作流程
- 单纯扩展无效:增大模型容量或加深推理链并不能从根本上解决不确定性——没有显式机制来识别和评估假设,大模型仍然无法权衡关于环境的竞争假说
论文的两个关键经验观察推动了设计: - LLM 在零样本 CoT 推理中会隐式生成关于不确定环境的假设(如"柜子里可能有食物") - 这些假设是局部且隐式引用的,从未被显式聚合用于全局决策,导致无法系统地调和多个假设
方法详解¶
整体框架¶
PCE 采用三阶段 pipeline 重新设计规划模块:
核心思想:将 LLM 推理链中隐含的假设提升为一等决策变量,在行动执行前先对假设进行推理。
关键设计¶
Planner(规划器):接收目标 \(G\)、当前进度、消息日志和可用行动列表,利用 LLM 推理能力产出候选行动及其推理链。关键是推理链中包含了孤立的"假设-行动"关联(如"浴室柜子可能有有用的东西"→"去检查浴室柜子"),但各假设之间的关系未被建立。
Composer(组合器):核心组件,将推理链中的假设组织为决策树:
- 内部节点:表示环境假设,有 True/False 两个分支
- 叶节点:在特定假设路径下最优的行动(物理行动或通信行动)
- 构建策略:自顶向下扩展,使用局部排序策略优先选择能最大程度降低不确定性且最强影响行动选择的假设分支
- 新假设生成:当已有假设不足时,Composer 基于上下文中的实体提出新的原子假设
- 深度限制:树深度限制为 \(D=3\)
示例:目标是找食物 → 根假设"客厅有食物" → True 分支导向"去客厅探索";False 分支 → 新假设"协作者 Bob 可能知道纸杯蛋糕位置" → True 分支导向"发消息询问 Bob"。
Evaluator(评估器):对决策树每条根到叶路径进行三维评分:
- 场景似然度 \(\mathcal{L}(\mathcal{S})\):该假设路径为真的估计概率,基于观测和消息历史由 LLM 评估
- 条件增益 \(\mathcal{G}(a)\):假设为真时,执行行动 \(a\) 对目标完成的推进程度
- 执行成本 \(C(a) = \alpha \cdot d(a) \cdot \mathbf{1}\{\text{move}\} + \beta \cdot \ell(a) \cdot \mathbf{1}\{\text{comm}\}\)
最终评分函数:
按 \(U\) 排序叶节点即可获得最优行动。通信被视为行动空间中的原子选项,仅在其效用高于物理行动时被选择——这从根本上区别于将通信作为搜索机制的现有方法。
损失函数 / 训练策略¶
PCE 是纯推理时框架,无需训练。默认超参数:\(D=3, \alpha=1, \beta=1, \lambda=1, K_{\text{action}}=10, K_{\text{message}}=3\)。在三种不同 LLM 骨干(GPT-4o mini、GPT-OSS:20B、Gemma3:4B)上均使用相同配置。
实验关键数据¶
主实验¶
C-WAH 环境(总步数↓越低越好):
| 方法 | GPT-4o mini | GPT-OSS:20B | Gemma3:4B |
|---|---|---|---|
| PCE | 42.76 | 49.60 | 59.20 |
| CoELA | 60.40 | 72.72 | 77.20 |
| REVECA | 46.80 | 53.86 | 62.56 |
| CaPo | 60.82 | 68.34 | 75.88 |
| CoTS | 64.00 | 65.26 | 72.32 |
TDW-MAT 环境(运输成功率↑越高越好):
| 方法 | GPT-4o mini Total | GPT-OSS:20B Total | Gemma3:4B Total |
|---|---|---|---|
| PCE | 87.50% | 81.25% | 70.83% |
| CoELA | 62.50% | 55.00% | 45.84% |
| REVECA | 81.25% | 73.33% | 52.09% |
| CaPo | 73.33% | 65.41% | 67.50% |
| CoTS | 75.00% | 59.17% | 63.33% |
通信次数对比(PCE vs 基线,GPT-4o mini): - C-WAH: PCE 1.70 vs CoELA 9.88 / CaPo 8.72 / CoTS 10.24 - TDW-MAT: PCE 3.58 vs CoELA 13.33 / CaPo 70.79 / CoTS 108.92
消融实验¶
组件消融(C-WAH,GPT-4o mini):
| 变体 | 总步数↓ | Token消耗↓ |
|---|---|---|
| PCE (完整) | 42.76 | 44353 |
| w/o Planner | 56.46 | 139918 |
| w/o Composer | 46.82 | 33347 |
| w/o Evaluator | 47.34 | 44720 |
LLM 容量扩展实验:Gemma3 从 4B→12B→27B 扩展,仅用 Planner(无 Composer+Evaluator)的改善有限,而 PCE 在所有容量下均一致地加快目标完成。
关键发现¶
- 通信减少 80%+:PCE 的通信次数仅为基线的 10-20%,但任务性能全面领先
- Token 使用可控:尽管 PCE 的三模块架构每步推理成本更高,但总 episode 长度大幅缩短,总 token 消耗与基线相当
- 扩展不能替代结构化:单纯增大模型(4B→27B)或加深推理(Low→High reasoning)带来的收益有限,PCE 的结构化不确定性处理与扩展互补而非替代
- 用户研究验证:12 名参与者在效率和信任度维度均给 PCE 最高评分,选择性通信比"总是通信"和"从不通信"都更受欢迎
亮点与洞察¶
- 范式转换:从"通信驱动协调"转向"结构化假设推理",将通信降格为行动空间中的普通选项而非搜索机制
- 假设作为一等公民:首次将 LLM 推理中的隐式假设显式建模为决策变量,这个抽象层次的提升简洁而有力
- 与 ToT/CoTS 的本质区别:ToT 在推理步骤空间搜索,CoTS 在联合推理-行动空间用通信搜索,PCE 在假设空间搜索——不同的树代表不同的东西
- 三方面验证一致:定量(两个benchmark)+ 定性(案例分析)+ 用户研究均支持核心claims
局限性 / 可改进方向¶
- 假设由 LLM 生成:假设的质量和覆盖率依赖于 LLM 的常识推理能力,可能遗漏关键假设
- 评分依赖 LLM 估计:似然度和增益均由 LLM 估计而非真实概率,可能存在系统性偏差
- 仅在仿真家庭环境验证:C-WAH 和 TDW-MAT 虽具挑战性但场景类型有限
- 树深度固定:\(D=3\) 对复杂长视野任务可能不够,自适应深度策略值得探索
- 两智能体限制:尚未在更多智能体(>2)的场景中大规模验证
相关工作与启发¶
- 与 CoELA/REVECA 的关系:这些工作通过对话交换状态和计划信息,PCE 通过内部结构化假设替代大部分通信
- 与 Tree of Thoughts 的区别:ToT 的树节点是推理步骤(认知空间),PCE 的树节点是环境假设(概率状态空间)
- 与 DEC-POMDP 的关系:PCE 可视为在 DEC-POMDP 框架下用 LLM 近似贝叶斯推理的实用方案
- 启发:将 LLM 生成的自由文本结构化为可评估的形式表示是提升 LLM 决策能力的通用方向,不限于多智能体场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — "假设即决策变量"的范式转换具有深远影响
- 实验充分度: ⭐⭐⭐⭐⭐ — 双 benchmark、三骨干、组件消融、扩展分析、用户研究全覆盖
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,方法动机充分,与相关工作的区分精准
- 价值: ⭐⭐⭐⭐⭐ — 实用性强(通信减少80%+),通用性好(多骨干一致提升),洞察深刻