跳转至

Large Language Models Miss the Multi-Agent Mark

会议: NeurIPS 2025
arXiv: 2505.21298
代码: 无
领域: LLM Agent
关键词: 多智能体系统, Position Paper, 社会智能, 异步通信, 涌现行为

一句话总结

Position paper 指出当前 MAS LLMs 在四个方面违背了传统多智能体系统(MAS)的基本原则:LLM 缺乏原生社会行为、环境设计以 LLM 为中心、缺少异步协调和标准通信协议、涌现行为缺乏量化评估,并为每个问题提出研究方向。

研究背景与动机

  1. 领域现状:MAS LLMs(基于 LLM 的多智能体系统)近年爆发式增长,用于软件工程、科学推理、社会模拟等场景。但该领域大量挪用 MAS 术语,却未深入理解 MAS 的基础原则。

  2. 现有痛点

  3. LLMs 被单独训练来回答用户请求,从未被训练来与其他 agent 交互协作——社会行为靠 prompt 或 orchestrator 强加
  4. 环境设计以 LLM 为中心,假设自然语言交互,忽略 LLM 的固有局限(幻觉、非确定性、长期记忆缺失)
  5. 几乎所有 MAS LLMs 使用同步顺序执行,忽略并发和异步
  6. 自然语言作为 agent 通信介质既昂贵又含糊——远不如 KQML 等结构化 agent 通信语言
  7. 涌现行为声称多但量化少,>60 篇论文中仅少数定义了明确指标

  8. 核心矛盾:MAS 有 40+ 年的理论和实践积累,但 MAS LLMs 建设者几乎不参考这些成果,有重新发明轮子的风险。

  9. 本文要解决什么? 系统分析 MAS LLMs 与传统 MAS 的差距,指明研究方向。

  10. 切入角度:Position paper,调研 110+ 篇 MAS LLMs 论文和 60+ 篇涌现行为论文,从 MAS 理论视角进行批判性分析。

方法详解(四个核心论点)

论点一:LLM 缺乏原生社会行为

  • MAS 的智能 agent 需要反应性(reactivity)、主动性(proactiveness)和社会性(social ability)
  • LLM 具有前两者,但社会性靠 prompt 注入而非训练获得
  • 证据:37% 的 MAS LLMs 失败来自 agent 间对齐和协调问题;LLM 在 Theory of Mind 任务上表现差
  • 建议:预训练阶段就融入多 agent 合作/竞争场景,而非仅靠 prompt 或 fine-tuning

论点二:环境设计以 LLM 为中心

  • 传统 MAS 环境设计不假设 agent 架构,但 MAS LLMs 假设 agent 是 LLM + 自然语言通信
  • LLM 的非确定性使"确定性环境"不可能保证;LLM 难以维持环境的一致表示(幻觉+上下文窗口限制)
  • 调研结果:大多数 MAS LLMs 在部分可观察、确定性、离散、文本环境中运作
  • 建议:设计多模态环境,减少自然语言中介;用结构化格式替代自由文本;集成形式化规划器

论点三:缺少异步协调和标准通信

  • 调研 1400+ 篇 MAS LLMs 论文,仅 22 篇涉及异步交互
  • 自然语言通信昂贵且含糊,KQML/FIPA ACL 等 MAS 通信标准被完全忽视
  • 即使 AutoGen 支持异步 API,也需手动定义每个异步调用,容易引入 bug
  • 建议:框架应默认异步、同步为例外;借鉴 KQML 等结构化通信协议;建立标准安全协议

论点四:涌现行为缺乏量化

  • Generative Agents (Stanford) 等工作声称涌现行为,但评估主要是定性观察
  • 60+ 篇涌现行为论文中仅少数定义了可测量指标
  • 建议:建立可证伪的涌现行为定义,区分弱涌现(可从底层推导)和强涌现(需要新假设)

实验关键数据

调研统计

调研维度 数据量 关键发现
环境特征分析 112 篇 MAS LLMs 论文 多数使用部分可观察+确定性+文本环境
异步性调研 1400+ 篇 仅 22 篇显式支持异步
涌现行为 60+ 篇 极少数有量化指标
失败分析 引用 Cemri et al. 37% 失败来自 agent 间协调

关键发现

  • MAS LLMs 的"环境"大多是文本/prompt,与传统 MAS 的丰富环境模型差距巨大
  • 异步性几乎为零——与真实世界的并发需求严重脱节
  • 涌现行为的声称远超证据支持

亮点与洞察

  • "不要重新发明轮子"的严肃提醒:MAS 社区 40 年积累的通信协议、协调机制、环境建模方法论被 MAS LLMs 忽视,这是巨大的浪费
  • 自然语言不是 agent 通信的银弹:自然语言作为 agent 间通信介质的代价(成本、含糊、不可靠)被严重低估。这个观点与 "Debate or Vote" 论文的结论呼应
  • 社会预训练的前瞻性建议:不仅 fine-tune agent 角色,而是在预训练阶段就训练多 agent 交互能力
  • 异步优先的框架设计:与现有框架"默认同步、可选异步"的设计哲学相反

局限性 / 可改进方向

  • 作为 Position Paper 偏理论和批判,缺乏实验验证自己提出的建议是否有效
  • 部分论点过于理想化——如"预训练中融入多 agent 场景"在实践中成本极高
  • 对 MAS LLMs 在实际应用中的成功案例(如 ChatDev 做软件开发)关注不足
  • 传统 MAS 方法论是否真的能直接迁移到 LLM 场景值得进一步讨论
  • 某些领域 LLM 的自然语言通信可能利大于弊(如人在回路的场景)

相关工作与启发

  • vs "Debate or Vote":两文殊途同归——后者从理论证明辩论无效(martingale),本文从 MAS 视角批评 agent 缺乏真正的社会交互
  • vs BCCS:BCCS 尝试用信念校准改进共识,但本文会认为这仍然是"prompt 层面的修修补补",缺乏根本性的社会预训练
  • vs AutoGen/LangGraph:本文直接批评这些框架"不够 MAS"——缺乏异步、缺乏标准通信、社会行为靠 orchestrator 强加

评分

  • 新颖性: ⭐⭐⭐⭐ 视角独特,从经典 MAS 理论审视 LLM agent 生态
  • 实验充分度: ⭐⭐⭐ 调研全面但没有实验验证
  • 写作质量: ⭐⭐⭐⭐⭐ 论证严谨,结构清晰,参考文献丰富
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM agent 社区有重要警醒作用,指明了多个有价值的研究方向