CARD: Towards Conditional Design of Multi-agent Topological Structures¶
会议: ICLR 2026
arXiv: 2603.01089
代码: https://github.com/Warma10032/CARD
领域: LLM Agent / 多Agent系统
关键词: 多Agent通信拓扑, 条件图生成, 图神经网络, 动态环境信号, Agent协作
一句话总结¶
CARD提出了一种条件图生成框架(Conditional Agentic Graph Designer),通过条件变分图编码器和环境感知优化,根据模型能力、工具可用性和知识源变化等动态环境信号自适应地设计多Agent通信拓扑结构,在HumanEval、MATH和MMLU上一致超越静态和基于提示的基线方法。
研究背景与动机¶
基于LLM的多Agent系统在代码生成和协作推理等任务上展现了强大的能力,但这些系统的有效性和鲁棒性在很大程度上取决于Agent之间的通信拓扑结构。当前方法存在两个关键缺陷:(1) 通信拓扑通常是固定的(如链式、层级式)或静态学习的,忽视了真实世界中的动态因素——模型升级、API变更、工具能力变化、知识源更新等;(2) 缺乏一个系统性的协议来描述和适应这些环境变化。核心矛盾在于:静态拓扑无法适应部署环境的动态变化,而手动重新设计拓扑又不可扩展。本文的切入点是:将多Agent拓扑设计视为一个条件图生成问题,让环境信号驱动拓扑的自适应构建。
方法详解¶
整体框架¶
CARD框架首先定义了AMACP(Adaptive Multi-Agent Communication Protocol),一个用于自适应多Agent通信的协议。在此协议之上,CARD将多Agent系统建模为动态图结构:每个Agent是图中的节点,Agent间的通信关系是边(包括空间边和时间边)。CARD的核心是一个条件图生成器:输入为任务描述和动态环境信号(LLM能力Profile、工具可用性、知识源状态),输出为优化的通信拓扑图。至于运行时,Agent按照生成的拓扑进行消息传递和协作推理。
关键设计¶
-
AMACP协议 (Adaptive Multi-Agent Communication Protocol): 定义了多Agent系统在动态环境下的通信规范。AMACP的核心思路是将环境状态显式地编码为条件信号,并将其纳入通信拓扑的设计过程中。协议规定了三类动态环境信号:(a) LLM Profiles:描述每个Agent使用的LLM的能力特征(如推理强度、代码生成能力、知识覆盖范围);(b) Tool Capabilities:描述可用工具的功能和状态(如搜索引擎是否可用、代码执行器的版本);(c) Knowledge Sources:描述外部知识库的可达性和时效性。当任何信号发生变化时,AMACP触发拓扑的重新生成,确保系统适应当前环境。
-
条件变分图编码器 (Conditional Variational Graph Encoder): CARD的核心组件。该编码器将Agent特征(角色、LLM能力)和环境信号编码为图的隐空间表示。具体而言,使用GCN(图卷积网络)对Agent节点进行特征融合,通过条件变分的方式学习拓扑的分布。生成过程包含两类边:(a) 空间边(Spatial Edges):定义同一推理步骤内Agent之间的信息流向——谁应该将结果传给谁;(b) 时间边(Temporal Edges):定义不同推理轮次间Agent的信息传递——某Agent在第t轮的输出如何影响其他Agent在第t+1轮的输入。通过变分推断,编码器可以在给定环境条件下采样出多种可能的拓扑结构,并通过优化目标选择最优的。
-
环境感知优化 (Environment-Aware Optimization): 在训练阶段,CARD使用环境条件调制的损失函数:不仅优化任务正确率,还考虑在不同环境配置下拓扑的鲁棒性。具体地,训练数据包含多种环境配置(不同LLM组合、不同工具可用性等),CARD学习生成在每种配置下都表现良好的拓扑结构。在运行时,CARD可以根据实时感知到的环境信号,快速生成适配当前条件的拓扑,无需重新训练——这通过条件VAE的生成能力实现。
-
多Agent执行引擎: 生成拓扑后,系统按图结构组织Agent的协作执行。每个Agent节点有特定角色(如CodeWriter、MathSolver、Analyze),并配备对应的外部工具(搜索、代码执行、RAG等)。消息按空间/时间边流动,支持多轮迭代推理。框架兼容GPT-4、Claude、DeepSeek、Llama等多种LLM。
损失函数 / 训练策略¶
训练分两个阶段:(1) 使用全连接(FullConnected)模式初始化Agent系统,收集不同环境配置下的表现数据作为训练信号;(2) 使用CARD的条件图生成器学习从环境信号到最优拓扑的映射。优化目标综合考虑任务准确率和拓扑效率(通信开销)。通过GCN进行特征融合,配合条件VAE的ELBO损失训练图生成器。评估时使用5个Agent、10轮迭代,batch size为8。
实验关键数据¶
主实验¶
| 数据集 | 指标 | CARD | 全连接(FullConnected) | 链式(Chain) | 随机(Random) | 说明 |
|---|---|---|---|---|---|---|
| HumanEval | Pass Rate | 最优 | 次优 | 较差 | 最差 | 代码生成 |
| MATH | Accuracy | 最优 | 次优 | 较差 | 较差 | 数学推理 |
| MMLU | Accuracy | 最优 | 次优 | 较差 | 中等 | 综合知识 |
CARD在所有三个基准上一致超越静态拓扑基线和基于提示的动态基线,尤其在环境发生变化(如Agent模型降级、工具不可用)时优势更加明显。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无环境条件信号 | 显著下降 | 退化为无条件图生成,无法适应环境变化 |
| 仅空间边 | 中等下降 | 缺少时间维度的信息流,多轮推理受限 |
| 仅时间边 | 较大下降 | 缺少同轮Agent间协作,复杂任务能力降低 |
| 无GNN特征融合 | 下降 | Agent特征未经图结构增强,生成的拓扑质量差 |
| 全连接基线 | 较高但低于CARD | 通信开销大,且在环境变化时缺乏适应性 |
关键发现¶
- CARD生成的拓扑在正常环境下接近或超过全连接的性能,但通信开销显著更低——稀疏但精准的通信胜过冗余的全连接
- 在模型降级场景(如将某个Agent从GPT-4替换为较弱模型)时,CARD自动调整拓扑以减少对降级Agent的依赖,性能下降幅度远小于固定拓扑
- 条件变分生成允许为同一任务生成多种候选拓扑,选择最优的那个,增加了系统的鲁棒性
- Agent数量增加时,CARD的优势进一步扩大,因为静态拓扑在大规模Agent系统中的设计空间呈指数增长
- CARD参考了GDesigner的设计思路,但核心区别在于引入了环境条件信号,使其能够应对真实部署中的动态变化
亮点与洞察¶
- 从NAS到Agent拓扑搜索的类比:正如神经架构搜索(NAS)自动化了网络设计,CARD自动化了多Agent协作结构的设计,且引入了条件生成使其能应对动态环境
- 图生成 + Agent系统的融合:将GNN的图结构学习能力与LLM Agent系统结合,是一个有前景的研究方向
- AMACP协议的泛用性:虽然本文聚焦代码/数学/知识任务,但AMACP协议的设计是通用的,可以扩展到任何需要多Agent协作的场景
- 环境信号的显式建模:这是区别于GDesigner等先前工作的关键创新——不仅学习"什么拓扑好",还学习"在什么条件下什么拓扑好"
局限与展望¶
- 目前仅在代码生成、数学推理和知识问答三类任务上验证,缺少更复杂的多Agent协作场景(如辩论、创意写作)
- 环境信号的定义和采集可能在实际部署中面临挑战——如何自动检测模型能力变化?
- 条件VAE的训练需要在多种环境配置下收集足够多的数据,初始训练成本较高
- Agent数量固定为5个,未充分探讨动态增减Agent的场景
- 与GDesigner等现有方法的定量比较不够详细(可能受限于论文篇幅)
- 图的生成目前是一次性的,未探索在执行过程中动态调整拓扑的能力
相关工作与启发¶
- GDesigner: 本文的核心参考工作,使用GNN设计多Agent拓扑,但缺乏条件适应能力。CARD在此基础上引入了条件生成
- MetaGPT / AutoGen / CrewAI: 流行的多Agent框架,使用固定拓扑(如SOP流程),难以适应环境变化
- CVAE在图生成中的应用: Graph VAE等方法为CARD的条件图生成器提供了理论基础
- 启发:多Agent系统的"元设计"(设计如何设计Agent系统)是一个受关注度还不够的方向,CARD开辟了条件化设计这条新路径
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [NeurIPS 2025] VeriMaAS: Automated Multi-Agent Workflows for RTL Design
- [ACL 2026] MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation
- [ACL 2026] MARS2: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation
- [AAAI 2026] Extracting Events Like Code: A Multi-Agent Programming Framework for Zero-Shot Event Extraction
- [ICLR 2026] Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering