跳转至

📚 AI Paper Notes

Large Language Models Miss the Multi-Agent Mark

Large Language Models Miss the Multi-Agent Mark¶

会议: NeurIPS 2025
arXiv: 2505.21298
代码: 无
领域: LLM Agent
关键词: 多智能体系统, Position Paper, 社会智能, 异步通信, 涌现行为

一句话总结¶

Position paper 指出当前 MAS LLMs 在四个方面违背了传统多智能体系统（MAS）的基本原则：LLM 缺乏原生社会行为、环境设计以 LLM 为中心、缺少异步协调和标准通信协议、涌现行为缺乏量化评估，并为每个问题提出研究方向。

研究背景与动机¶

领域现状：MAS LLMs（基于 LLM 的多智能体系统）近年爆发式增长，用于软件工程、科学推理、社会模拟等场景。但该领域大量挪用 MAS 术语，却未深入理解 MAS 的基础原则。
现有痛点：
LLMs 被单独训练来回答用户请求，从未被训练来与其他 agent 交互协作——社会行为靠 prompt 或 orchestrator 强加
环境设计以 LLM 为中心，假设自然语言交互，忽略 LLM 的固有局限（幻觉、非确定性、长期记忆缺失）
几乎所有 MAS LLMs 使用同步顺序执行，忽略并发和异步
自然语言作为 agent 通信介质既昂贵又含糊——远不如 KQML 等结构化 agent 通信语言
涌现行为声称多但量化少，>60 篇论文中仅少数定义了明确指标
核心矛盾：MAS 有 40+ 年的理论和实践积累，但 MAS LLMs 建设者几乎不参考这些成果，有重新发明轮子的风险。
本文要解决什么？ 系统分析 MAS LLMs 与传统 MAS 的差距，指明研究方向。
切入角度：Position paper，调研 110+ 篇 MAS LLMs 论文和 60+ 篇涌现行为论文，从 MAS 理论视角进行批判性分析。

方法详解（四个核心论点）¶

论点一：LLM 缺乏原生社会行为¶

MAS 的智能 agent 需要反应性（reactivity）、主动性（proactiveness）和社会性（social ability）
LLM 具有前两者，但社会性靠 prompt 注入而非训练获得
证据：37% 的 MAS LLMs 失败来自 agent 间对齐和协调问题；LLM 在 Theory of Mind 任务上表现差
建议：预训练阶段就融入多 agent 合作/竞争场景，而非仅靠 prompt 或 fine-tuning

论点二：环境设计以 LLM 为中心¶

传统 MAS 环境设计不假设 agent 架构，但 MAS LLMs 假设 agent 是 LLM + 自然语言通信
LLM 的非确定性使"确定性环境"不可能保证；LLM 难以维持环境的一致表示（幻觉+上下文窗口限制）
调研结果：大多数 MAS LLMs 在部分可观察、确定性、离散、文本环境中运作
建议：设计多模态环境，减少自然语言中介；用结构化格式替代自由文本；集成形式化规划器

论点三：缺少异步协调和标准通信¶

调研 1400+ 篇 MAS LLMs 论文，仅 22 篇涉及异步交互
自然语言通信昂贵且含糊，KQML/FIPA ACL 等 MAS 通信标准被完全忽视
即使 AutoGen 支持异步 API，也需手动定义每个异步调用，容易引入 bug
建议：框架应默认异步、同步为例外；借鉴 KQML 等结构化通信协议；建立标准安全协议

论点四：涌现行为缺乏量化¶

Generative Agents (Stanford) 等工作声称涌现行为，但评估主要是定性观察
60+ 篇涌现行为论文中仅少数定义了可测量指标
建议：建立可证伪的涌现行为定义，区分弱涌现（可从底层推导）和强涌现（需要新假设）

实验关键数据¶

调研统计¶

调研维度	数据量	关键发现
环境特征分析	112 篇 MAS LLMs 论文	多数使用部分可观察+确定性+文本环境
异步性调研	1400+ 篇	仅 22 篇显式支持异步
涌现行为	60+ 篇	极少数有量化指标
失败分析	引用 Cemri et al.	37% 失败来自 agent 间协调

关键发现¶

MAS LLMs 的"环境"大多是文本/prompt，与传统 MAS 的丰富环境模型差距巨大
异步性几乎为零——与真实世界的并发需求严重脱节
涌现行为的声称远超证据支持

亮点与洞察¶

"不要重新发明轮子"的严肃提醒：MAS 社区 40 年积累的通信协议、协调机制、环境建模方法论被 MAS LLMs 忽视，这是巨大的浪费
自然语言不是 agent 通信的银弹：自然语言作为 agent 间通信介质的代价（成本、含糊、不可靠）被严重低估。这个观点与 "Debate or Vote" 论文的结论呼应
社会预训练的前瞻性建议：不仅 fine-tune agent 角色，而是在预训练阶段就训练多 agent 交互能力
异步优先的框架设计：与现有框架"默认同步、可选异步"的设计哲学相反

局限性 / 可改进方向¶

作为 Position Paper 偏理论和批判，缺乏实验验证自己提出的建议是否有效
部分论点过于理想化——如"预训练中融入多 agent 场景"在实践中成本极高
对 MAS LLMs 在实际应用中的成功案例（如 ChatDev 做软件开发）关注不足
传统 MAS 方法论是否真的能直接迁移到 LLM 场景值得进一步讨论
某些领域 LLM 的自然语言通信可能利大于弊（如人在回路的场景）

相关工作与启发¶

vs "Debate or Vote"：两文殊途同归——后者从理论证明辩论无效（martingale），本文从 MAS 视角批评 agent 缺乏真正的社会交互
vs BCCS：BCCS 尝试用信念校准改进共识，但本文会认为这仍然是"prompt 层面的修修补补"，缺乏根本性的社会预训练
vs AutoGen/LangGraph：本文直接批评这些框架"不够 MAS"——缺乏异步、缺乏标准通信、社会行为靠 orchestrator 强加

评分¶

新颖性: ⭐⭐⭐⭐ 视角独特，从经典 MAS 理论审视 LLM agent 生态
实验充分度: ⭐⭐⭐ 调研全面但没有实验验证
写作质量: ⭐⭐⭐⭐⭐ 论证严谨，结构清晰，参考文献丰富
价值: ⭐⭐⭐⭐⭐ 对 LLM agent 社区有重要警醒作用，指明了多个有价值的研究方向