Large Language Models Miss the Multi-Agent Mark¶
会议: NeurIPS 2025
arXiv: 2505.21298
代码: 无
领域: LLM Agent
关键词: 多智能体系统, Position Paper, 社会智能, 异步通信, 涌现行为
一句话总结¶
Position paper 指出当前 MAS LLMs 在四个方面违背了传统多智能体系统(MAS)的基本原则:LLM 缺乏原生社会行为、环境设计以 LLM 为中心、缺少异步协调和标准通信协议、涌现行为缺乏量化评估,并为每个问题提出研究方向。
研究背景与动机¶
-
领域现状:MAS LLMs(基于 LLM 的多智能体系统)近年爆发式增长,用于软件工程、科学推理、社会模拟等场景。但该领域大量挪用 MAS 术语,却未深入理解 MAS 的基础原则。
-
现有痛点:
- LLMs 被单独训练来回答用户请求,从未被训练来与其他 agent 交互协作——社会行为靠 prompt 或 orchestrator 强加
- 环境设计以 LLM 为中心,假设自然语言交互,忽略 LLM 的固有局限(幻觉、非确定性、长期记忆缺失)
- 几乎所有 MAS LLMs 使用同步顺序执行,忽略并发和异步
- 自然语言作为 agent 通信介质既昂贵又含糊——远不如 KQML 等结构化 agent 通信语言
-
涌现行为声称多但量化少,>60 篇论文中仅少数定义了明确指标
-
核心矛盾:MAS 有 40+ 年的理论和实践积累,但 MAS LLMs 建设者几乎不参考这些成果,有重新发明轮子的风险。
-
本文要解决什么? 系统分析 MAS LLMs 与传统 MAS 的差距,指明研究方向。
-
切入角度:Position paper,调研 110+ 篇 MAS LLMs 论文和 60+ 篇涌现行为论文,从 MAS 理论视角进行批判性分析。
方法详解(四个核心论点)¶
论点一:LLM 缺乏原生社会行为¶
- MAS 的智能 agent 需要反应性(reactivity)、主动性(proactiveness)和社会性(social ability)
- LLM 具有前两者,但社会性靠 prompt 注入而非训练获得
- 证据:37% 的 MAS LLMs 失败来自 agent 间对齐和协调问题;LLM 在 Theory of Mind 任务上表现差
- 建议:预训练阶段就融入多 agent 合作/竞争场景,而非仅靠 prompt 或 fine-tuning
论点二:环境设计以 LLM 为中心¶
- 传统 MAS 环境设计不假设 agent 架构,但 MAS LLMs 假设 agent 是 LLM + 自然语言通信
- LLM 的非确定性使"确定性环境"不可能保证;LLM 难以维持环境的一致表示(幻觉+上下文窗口限制)
- 调研结果:大多数 MAS LLMs 在部分可观察、确定性、离散、文本环境中运作
- 建议:设计多模态环境,减少自然语言中介;用结构化格式替代自由文本;集成形式化规划器
论点三:缺少异步协调和标准通信¶
- 调研 1400+ 篇 MAS LLMs 论文,仅 22 篇涉及异步交互
- 自然语言通信昂贵且含糊,KQML/FIPA ACL 等 MAS 通信标准被完全忽视
- 即使 AutoGen 支持异步 API,也需手动定义每个异步调用,容易引入 bug
- 建议:框架应默认异步、同步为例外;借鉴 KQML 等结构化通信协议;建立标准安全协议
论点四:涌现行为缺乏量化¶
- Generative Agents (Stanford) 等工作声称涌现行为,但评估主要是定性观察
- 60+ 篇涌现行为论文中仅少数定义了可测量指标
- 建议:建立可证伪的涌现行为定义,区分弱涌现(可从底层推导)和强涌现(需要新假设)
实验关键数据¶
调研统计¶
| 调研维度 | 数据量 | 关键发现 |
|---|---|---|
| 环境特征分析 | 112 篇 MAS LLMs 论文 | 多数使用部分可观察+确定性+文本环境 |
| 异步性调研 | 1400+ 篇 | 仅 22 篇显式支持异步 |
| 涌现行为 | 60+ 篇 | 极少数有量化指标 |
| 失败分析 | 引用 Cemri et al. | 37% 失败来自 agent 间协调 |
关键发现¶
- MAS LLMs 的"环境"大多是文本/prompt,与传统 MAS 的丰富环境模型差距巨大
- 异步性几乎为零——与真实世界的并发需求严重脱节
- 涌现行为的声称远超证据支持
亮点与洞察¶
- "不要重新发明轮子"的严肃提醒:MAS 社区 40 年积累的通信协议、协调机制、环境建模方法论被 MAS LLMs 忽视,这是巨大的浪费
- 自然语言不是 agent 通信的银弹:自然语言作为 agent 间通信介质的代价(成本、含糊、不可靠)被严重低估。这个观点与 "Debate or Vote" 论文的结论呼应
- 社会预训练的前瞻性建议:不仅 fine-tune agent 角色,而是在预训练阶段就训练多 agent 交互能力
- 异步优先的框架设计:与现有框架"默认同步、可选异步"的设计哲学相反
局限性 / 可改进方向¶
- 作为 Position Paper 偏理论和批判,缺乏实验验证自己提出的建议是否有效
- 部分论点过于理想化——如"预训练中融入多 agent 场景"在实践中成本极高
- 对 MAS LLMs 在实际应用中的成功案例(如 ChatDev 做软件开发)关注不足
- 传统 MAS 方法论是否真的能直接迁移到 LLM 场景值得进一步讨论
- 某些领域 LLM 的自然语言通信可能利大于弊(如人在回路的场景)
相关工作与启发¶
- vs "Debate or Vote":两文殊途同归——后者从理论证明辩论无效(martingale),本文从 MAS 视角批评 agent 缺乏真正的社会交互
- vs BCCS:BCCS 尝试用信念校准改进共识,但本文会认为这仍然是"prompt 层面的修修补补",缺乏根本性的社会预训练
- vs AutoGen/LangGraph:本文直接批评这些框架"不够 MAS"——缺乏异步、缺乏标准通信、社会行为靠 orchestrator 强加
评分¶
- 新颖性: ⭐⭐⭐⭐ 视角独特,从经典 MAS 理论审视 LLM agent 生态
- 实验充分度: ⭐⭐⭐ 调研全面但没有实验验证
- 写作质量: ⭐⭐⭐⭐⭐ 论证严谨,结构清晰,参考文献丰富
- 价值: ⭐⭐⭐⭐⭐ 对 LLM agent 社区有重要警醒作用,指明了多个有价值的研究方向