CARD: Towards Conditional Design of Multi-agent Topological Structures¶

会议: ICLR 2026
arXiv: 2603.01089
代码: https://github.com/Warma10032/CARD
领域: LLM Agent / 多Agent系统
关键词: 多Agent通信拓扑, 条件图生成, 图神经网络, 动态环境信号, Agent协作

一句话总结¶

CARD提出了一种条件图生成框架(Conditional Agentic Graph Designer)，通过条件变分图编码器和环境感知优化，根据模型能力、工具可用性和知识源变化等动态环境信号自适应地设计多Agent通信拓扑结构，在HumanEval、MATH和MMLU上一致超越静态和基于提示的基线方法。

研究背景与动机¶

基于LLM的多Agent系统在代码生成和协作推理等任务上展现了强大的能力，但这些系统的有效性和鲁棒性在很大程度上取决于Agent之间的通信拓扑结构。当前方法存在两个关键缺陷：(1) 通信拓扑通常是固定的（如链式、层级式）或静态学习的，忽视了真实世界中的动态因素——模型升级、API变更、工具能力变化、知识源更新等；(2) 缺乏一个系统性的协议来描述和适应这些环境变化。核心矛盾在于：静态拓扑无法适应部署环境的动态变化，而手动重新设计拓扑又不可扩展。本文的切入点是：将多Agent拓扑设计视为一个条件图生成问题，让环境信号驱动拓扑的自适应构建。

方法详解¶

整体框架¶

CARD框架首先定义了AMACP（Adaptive Multi-Agent Communication Protocol），一个用于自适应多Agent通信的协议。在此协议之上，CARD将多Agent系统建模为动态图结构：每个Agent是图中的节点，Agent间的通信关系是边（包括空间边和时间边）。CARD的核心是一个条件图生成器：输入为任务描述和动态环境信号（LLM能力Profile、工具可用性、知识源状态），输出为优化的通信拓扑图。至于运行时，Agent按照生成的拓扑进行消息传递和协作推理。

关键设计¶

AMACP协议 (Adaptive Multi-Agent Communication Protocol): 定义了多Agent系统在动态环境下的通信规范。AMACP的核心思路是将环境状态显式地编码为条件信号，并将其纳入通信拓扑的设计过程中。协议规定了三类动态环境信号：(a) LLM Profiles：描述每个Agent使用的LLM的能力特征（如推理强度、代码生成能力、知识覆盖范围）；(b) Tool Capabilities：描述可用工具的功能和状态（如搜索引擎是否可用、代码执行器的版本）；(c) Knowledge Sources：描述外部知识库的可达性和时效性。当任何信号发生变化时，AMACP触发拓扑的重新生成，确保系统适应当前环境。
条件变分图编码器 (Conditional Variational Graph Encoder): CARD的核心组件。该编码器将Agent特征（角色、LLM能力）和环境信号编码为图的隐空间表示。具体而言，使用GCN（图卷积网络）对Agent节点进行特征融合，通过条件变分的方式学习拓扑的分布。生成过程包含两类边：(a) 空间边（Spatial Edges）：定义同一推理步骤内Agent之间的信息流向——谁应该将结果传给谁；(b) 时间边（Temporal Edges）：定义不同推理轮次间Agent的信息传递——某Agent在第t轮的输出如何影响其他Agent在第t+1轮的输入。通过变分推断，编码器可以在给定环境条件下采样出多种可能的拓扑结构，并通过优化目标选择最优的。
环境感知优化 (Environment-Aware Optimization): 在训练阶段，CARD使用环境条件调制的损失函数：不仅优化任务正确率，还考虑在不同环境配置下拓扑的鲁棒性。具体地，训练数据包含多种环境配置（不同LLM组合、不同工具可用性等），CARD学习生成在每种配置下都表现良好的拓扑结构。在运行时，CARD可以根据实时感知到的环境信号，快速生成适配当前条件的拓扑，无需重新训练——这通过条件VAE的生成能力实现。
多Agent执行引擎: 生成拓扑后，系统按图结构组织Agent的协作执行。每个Agent节点有特定角色（如CodeWriter、MathSolver、Analyze），并配备对应的外部工具（搜索、代码执行、RAG等）。消息按空间/时间边流动，支持多轮迭代推理。框架兼容GPT-4、Claude、DeepSeek、Llama等多种LLM。

损失函数 / 训练策略¶

训练分两个阶段：(1) 使用全连接（FullConnected）模式初始化Agent系统，收集不同环境配置下的表现数据作为训练信号；(2) 使用CARD的条件图生成器学习从环境信号到最优拓扑的映射。优化目标综合考虑任务准确率和拓扑效率（通信开销）。通过GCN进行特征融合，配合条件VAE的ELBO损失训练图生成器。评估时使用5个Agent、10轮迭代，batch size为8。

实验关键数据¶

主实验¶

数据集	指标	CARD	全连接(FullConnected)	链式(Chain)	随机(Random)	说明
HumanEval	Pass Rate	最优	次优	较差	最差	代码生成
MATH	Accuracy	最优	次优	较差	较差	数学推理
MMLU	Accuracy	最优	次优	较差	中等	综合知识

CARD在所有三个基准上一致超越静态拓扑基线和基于提示的动态基线，尤其在环境发生变化（如Agent模型降级、工具不可用）时优势更加明显。

消融实验¶

配置	关键指标	说明
无环境条件信号	显著下降	退化为无条件图生成，无法适应环境变化
仅空间边	中等下降	缺少时间维度的信息流，多轮推理受限
仅时间边	较大下降	缺少同轮Agent间协作，复杂任务能力降低
无GNN特征融合	下降	Agent特征未经图结构增强，生成的拓扑质量差
全连接基线	较高但低于CARD	通信开销大，且在环境变化时缺乏适应性

关键发现¶

CARD生成的拓扑在正常环境下接近或超过全连接的性能，但通信开销显著更低——稀疏但精准的通信胜过冗余的全连接
在模型降级场景（如将某个Agent从GPT-4替换为较弱模型）时，CARD自动调整拓扑以减少对降级Agent的依赖，性能下降幅度远小于固定拓扑
条件变分生成允许为同一任务生成多种候选拓扑，选择最优的那个，增加了系统的鲁棒性
Agent数量增加时，CARD的优势进一步扩大，因为静态拓扑在大规模Agent系统中的设计空间呈指数增长
CARD参考了GDesigner的设计思路，但核心区别在于引入了环境条件信号，使其能够应对真实部署中的动态变化

亮点与洞察¶

从NAS到Agent拓扑搜索的类比：正如神经架构搜索（NAS）自动化了网络设计，CARD自动化了多Agent协作结构的设计，且引入了条件生成使其能应对动态环境
图生成 + Agent系统的融合：将GNN的图结构学习能力与LLM Agent系统结合，是一个有前景的研究方向
AMACP协议的泛用性：虽然本文聚焦代码/数学/知识任务，但AMACP协议的设计是通用的，可以扩展到任何需要多Agent协作的场景
环境信号的显式建模：这是区别于GDesigner等先前工作的关键创新——不仅学习"什么拓扑好"，还学习"在什么条件下什么拓扑好"

局限与展望¶

目前仅在代码生成、数学推理和知识问答三类任务上验证，缺少更复杂的多Agent协作场景（如辩论、创意写作）
环境信号的定义和采集可能在实际部署中面临挑战——如何自动检测模型能力变化？
条件VAE的训练需要在多种环境配置下收集足够多的数据，初始训练成本较高
Agent数量固定为5个，未充分探讨动态增减Agent的场景
与GDesigner等现有方法的定量比较不够详细（可能受限于论文篇幅）
图的生成目前是一次性的，未探索在执行过程中动态调整拓扑的能力

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐