MultiAgentBench: Evaluating the Collaboration and Competition of LLM Agents¶

基本信息¶

会议: ACL 2025
arXiv: 2503.01935
代码: MultiagentBench/MARBLE
机构: University of Illinois Urbana-Champaign
领域: LLM Agent / 多智能体系统
关键词: multi-agent, benchmark, collaboration, competition, coordination protocol, emergent behavior

一句话总结¶

提出 MultiAgentBench 基准测试和 MARBLE 框架，系统评估 LLM 多智能体系统在协作与竞争场景中的表现，包含 6 种交互场景（研究、Minecraft、数据库、编程、讨价还价、狼人杀），引入基于里程碑的 KPI 指标和协调评分，发现 gpt-4o-mini 整体任务分最高、图结构协调协议在研究场景中表现最佳、认知规划可提升里程碑达成率 3%。

研究背景与动机¶

单智能体评估的局限：现有基准如 AgentBench、GAIA、ToolBench 等主要评估单个 LLM 智能体的推理和生成能力，忽略了多智能体交互中的协调和竞争动态
多智能体系统的兴起：LLM 多智能体系统在软件开发（MetaGPT、ChatDev）、科学研究、游戏等领域展现出强大潜力，但缺乏系统的评估标准
评估维度不足：不仅需要评估任务完成度，还需衡量协调质量、沟通效率和规划能力
核心目标：构建涵盖协作和竞争场景的全面多智能体评估框架

方法详解¶

整体框架：MARBLE (Multi-agent cooRdination Backbone with LLM Engine)¶

MARBLE 由四个核心模块组成：

1. Agent Graph Module¶

将智能体关系建模为图 \(G = (\mathcal{A}, E)\)： - \(\mathcal{A} = \{a_1, a_2, \dots, a_n\}\)：智能体集合 - 每条边 \((a_i, r, a_j)\) 表示关系类型：collaborates（协作）、supervises（监督）、negotiates（谈判） - 通信和协调仅在有显式关系的智能体间进行

2. Cognitive Module（认知模块）¶

维护每个智能体的内部状态：角色设定、智能体间关系、推理策略
融合心智理论（Theory of Mind）和社会智能
支持 CoT、ReACT 等推理策略
模拟人类基于社交线索持续更新心理模型的过程

3. Coordination Engine（协调引擎）¶

支持四种协调协议：

协议	类型	特点
Star	中心化	单一规划者分配任务，强监督但可扩展性有限
Tree	中心化	层次结构，顶层规划者委派给下级规划者
Graph-Mesh	去中心化	智能体直接通信，并发规划和分布式决策
Chain	去中心化	顺序传递决策，适合有依赖关系的任务

4. Planner 设计¶

四种规划策略：

Vanilla Prompting：直接零样本指令生成计划
Chain-of-Thought (CoT)：逐步推理，输入任务+智能体档案+历史
Group Discussion：多智能体共享见解和约束，协作审议
Cognitive Self-Evolving Planning：生成预期结果，存入记忆，与实际表现对比，迭代改进（类似 Reflexion）

基准任务设计¶

共同目标场景（协作）¶

场景	描述	规模
Research	多agent合作撰写研究提案	100 个测试用例
Minecraft	协作建造结构	100 个测试用例
Database	5个agent诊断不同根因	100 个测试用例
Coding	集体编程和模块开发	100 个测试用例

对立目标场景（竞争）¶

场景	描述
Werewolf（狼人杀）	两组对抗，涉及欺骗策略
Bargaining（讨价还价）	资源谈判，最大化个人收益

评估指标¶

任务完成指标¶

KPI：基于里程碑的关键绩效指标，\(\text{KPI}_{\text{overall}} = \frac{1}{NM}\sum_{j=1}^N n_j\)
Task Score (TS)：最终输出质量评分（LLM 评分或规则评估）

协调指标¶

Communication Score (\(C_{\text{score}}\))：基于 LLM 评估沟通质量（5分制）
Planning Score (\(P_{\text{score}}\))：评估任务组织、角色维护和策略调整（5分制）
Coordination Score (CS)：上述两项的平均值

实验¶

实验设置¶

模型：Meta-Llama-3.1-8B、Meta-Llama-3.1-70B、Meta-Llama-3.3-70B、GPT-3.5-turbo、GPT-4o-mini
参数：max_token_num=1024，temperature=0.7，top_p=1.0
迭代：研究任务 5 轮，Minecraft 20 轮，通信最大 5 轮
默认协议：Graph-Mesh

主实验一：模型性能对比（表1）¶

模型	Research TS	Minecraft TS	Database TS	Coding TS	Bargaining TS	Werewolf TS
Llama-3.1-8B	80.87	6.12	34.00	59.90	72.81	12.64
Llama-3.1-70B	80.80	0.21	53.00	62.10	72.13	19.82
Llama-3.3-70B	80.00	9.15	28.50	56.60	73.15	36.33
GPT-3.5-turbo	70.20	5.05	45.00	55.50	71.67	15.69
GPT-4o-mini	84.13	33.60	45.00	65.10	74.47	14.06

关键发现： 1. GPT-4o-mini 任务分最高：在 Research、Minecraft、Coding、Bargaining 中领先 2. 协调分≠任务分：Llama-3.1-70B 在 Minecraft 协调分高达 75.00，但任务分仅 0.21 3. 能力因任务而异：Llama-3.3-70B 在 Werewolf 中 TS 最高（36.33），但在其他任务中不突出

主实验二：协调协议对比¶

Graph 协议在研究场景中表现最佳（最高任务分和规划效率）
Tree 协议表现最差（高 token 消耗，最低任务和协调分）
Star 和 Graph 任务分相近

规划策略对比¶

Cognitive Evolving Planning 协调分最优，任务分与 CoT 相当
Group Discussion 反而表现最差——过大的规划组反而阻碍效率（类似现实中的大型组织问题）

消融实验¶

迭代次数： - 任务分和协调分在 1→7 轮间上升，10 轮时骤降，20 轮时任务分恢复但协调分不变 - 过多迭代可能导致协调退化（通信开销或指令冲突）

智能体数量： - KPI 随智能体数量增加而降低（更复杂的协调） - 协调分在 1→3 个智能体时显著提升，之后趋于平缓 - 任务分增长更为渐进

涌现行为分析¶

三种关键涌现模式： 1. 策略性信息共享：智能体选择性披露关键信息（如狼人杀中预言家隐瞒检验结果） 2. 信任极化协作：角色身份驱动协作分裂，过度怀疑的村民可能攻击己方 3. 角色驱动策略迭代：角色（如预言家、女巫）在游戏过程中调整策略

亮点与洞察¶

首个系统性多智能体评估框架：覆盖协作+竞争、6 种场景、多种协调协议，填补了评估空白
里程碑KPI创新：超越简单的任务成功/失败二分，追踪中间进展和个体贡献
反直觉发现：Group Discussion 最差、协调分高不等于任务分高、更多智能体不一定更好
涌现行为的发现：LLM 智能体在信息不对称和角色冲突下展现出类似人类的社会行为模式
模型能力仍是关键：协调改善无法弥补基础能力的不足

局限性¶

场景覆盖有限：未涵盖开放世界、任务导向对话等复杂场景
模型覆盖不全：未包含 DeepSeek 等最新模型
消融不够深入：未充分研究记忆机制（长期/短期/共享记忆）和不同工作流方法
竞争机制简单：未涵盖多方谈判、重复博弈、随机因素等复杂情况
评估依赖 LLM：KPI 里程碑检测和协调评分依赖 LLM 判断，可能存在偏差

评分¶

⭐⭐⭐⭐ (4/5)

创新性：首个系统性多智能体评估基准，设计全面（+1）
实验多样性：6 种场景 × 5 种模型 × 4 种协调协议 × 4 种规划策略（+0.5）
洞察深度：涌现行为分析和反直觉发现增加了学术贡献（+0.5）
实用价值：开源框架可供社区使用（+0.5）
扣分：评估依赖 LLM 判断的可靠性存疑、模型覆盖不够广、某些任务设计偏简单（-1）