SYMPHONY: Synergistic Multi-agent Planning with Heterogeneous Language Model Assemblies¶

会议: NeurIPS 2025
arXiv: 2601.22623
代码: https://github.com/ZHUWEI-hub/SYMPHONY (有)
领域: LLM Agent / 模型压缩
关键词: 多智能体规划, MCTS, 异构模型, LLM协作, 树搜索

一句话总结¶

提出 SYMPHONY，一个基于 MCTS 的多智能体规划框架，通过异构 LLM 池的多样性驱动搜索、UCB 自适应调度、熵调制置信度评估和池级记忆共享，显著提升了 LLM 规划的多样性和效率。

研究背景与动机¶

将 LLM 与 MCTS 结合用于复杂任务规划是近年热点（RAP、LATS、MASTER 等），但现有方法几乎都采用单模型范式：反复查询同一个 LLM 来生成搜索分支。问题在于，单个 LLM 多次采样的输出往往高度相似，反映同一种主导推理模式，导致： - 搜索树中充满冗余的相似分支 - 探索能力受限，容易陷入局部最优 - 需要额外的采样和 token 消耗来覆盖解空间

核心矛盾：MCTS 需要多样的 rollout 来有效探索，但单一 LLM 的变异性不足以支持这种多样性。

本文切入角度：用一组异构 LLM（不同预训练来源、不同推理风格）替代单一模型，从"模型级多样性"角度提升搜索树的分支多样性。配合自适应调度和协作记忆保证高效协调。

方法详解¶

整体框架¶

SYMPHONY 在标准 MCTS 框架中引入四个关键组件：(1) 异构智能体池提供多样化的分支生成；(2) UCB 调度策略动态选择当前最优智能体；(3) 熵调制置信度评分 (EMCS) 校准节点价值估计；(4) 池级记忆共享支持跨智能体的反思学习。

关键设计¶

异构智能体池：
- 维护 \(\mathcal{M}^{(k)} = \{M_1^{(k)}, \cdots, M_n^{(k)}\}\) 多个异构 LLM
- SYMPHONY-S（消费级硬件）：Qwen2.5-7B + Mistral-7B + Llama-3.1-8B
- SYMPHONY-L（API级）：GPT-4 + Qwen-Max + DeepSeek-V3
- 统一输入输出接口，支持模块化替换
- 从理论上证明：从集成中以非零概率采样多个智能体，期望误差严格低于确定性选择单一智能体
UCB 自适应调度：
- 将智能体选择建模为多臂老虎机问题
- \(\text{UCB}(M_i^{(k)}) = \bar{Q}(M_i^{(k)}) + \alpha \cdot \sqrt{\frac{\ln N_{total}}{N(M_i^{(k)})+1}}\)
- 兼顾对高分智能体的利用和对低频智能体的探索
- 用于 MCTS 的扩展、评估和反思三个阶段
池级记忆共享：
- 失败轨迹触发 UCB 选出的智能体生成自然语言反思 \(\mathcal{R}_i^k\)
- 反思广播到全部智能体，作为共享记忆块注入 prompt
- 固定大小缓冲区 + FIFO 策略管理记忆
- 无需参数更新，通过 prompt 级记忆实现行为调整
熵调制节点评估 (EMCS)：
- 智能体评估节点产生价值 \(Z(s_t) \in [0,1]\) 和置信度 \(C(s_t) \in (0,1)\)
- 用伯努利熵惩罚不确定预测：\(R(s_t) = Z(s_t) \cdot (1 - E(s_t))\)
- 其中 \(E(s_t) = -C(s_t)\ln C(s_t) - (1-C(s_t))\ln(1-C(s_t))\)
- 在 \(C=0.5\) 时惩罚最大（最不确定），保留高置信度评估

损失函数 / 训练策略¶

无需训练，纯推理时协作框架
超参数包括 UCB 探索系数 \(\alpha\)、MCTS 展开宽度 \(n\) 和搜索预算 \(K\)

实验关键数据¶

主实验¶

任务	指标	SYMPHONY-S	SYMPHONY-L	LATS	MASTER
HotpotQA	EM	0.59	0.79	0.71	0.76
WebShop	Score/SR	0.82/0.56	0.88/0.72	0.76/0.38	0.80/–
MBPP (Python)	Pass@1	0.927	0.965	0.811	0.910
MBPP (Rust)	Pass@1	0.946	0.974	–	–

消融实验¶

配置	HotpotQA(EM)	WebShop(SR)	MBPP(Pass@1)
SYMPHONY-S 完整	0.59	0.56	0.927
w/o Agent Scheduling	0.51	0.48	0.906
w/o Memory Sharing	0.45	0.46	0.871
w/o EMCS	0.51	0.49	0.892

关键发现¶

多样性驱动性能：三模型组合的 4-Unique 分支比例在 MBPP 上超过 80%，单模型不到 20%，性能提升超 30%
搜索效率：SYMPHONY-L 在 HotpotQA 上仅需 9.47 个节点展开（LATS@50 需要 66.65），效率提升 7×
成本优化：SYMPHONY-L 中 GPT-4 仅占 40% 调用量，但性能优于纯 GPT-4 基线
消费级可行：SYMPHONY-S（纯开源 7B/8B 模型）在多个任务上已超越单模型 GPT-4 基线

亮点与洞察¶

异构 > 同构：即使是同规模的不同开源模型组合，也比单一强模型的多次采样更有效——模型级多样性是被低估的资源
记忆共享的去中心化设计：不同于需要显式通信协议的多智能体系统，通过自然语言反思实现轻量级知识传播
EMCS 的优雅性：用信息论中的伯努利熵来校准 LLM 的自评分，简单且有效

局限与展望¶

异构模型池的选择缺乏系统性指导，目前靠经验选择
MCTS 的搜索预算 \(K\) 和展开宽度 \(n\) 需手动调节
记忆共享的 FIFO 策略较简单，可能丢失重要反思
对抗性或高噪声环境下的鲁棒性未充分验证

评分¶

新颖性: ⭐⭐⭐⭐ 异构智能体池 + UCB调度的组合在 MCTS-LLM 场景中是新的
实验充分度: ⭐⭐⭐⭐⭐ 三个不同类型任务，两种配置，消融和效率分析全面
写作质量: ⭐⭐⭐⭐ 框架清晰，但数学符号较多
价值: ⭐⭐⭐⭐⭐ 为"如何组合多个LLM做规划"提供了有原则的方案，消费级硬件可用性强