Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation¶

会议: AAAI 2026
arXiv: 2507.18224
代码: https://github.com/Shiy-Li/ARG-Designer (有)
领域: LLM Agent / 多Agent系统
关键词: 多Agent拓扑设计, 自回归图生成, 协作图, 课程学习, 可扩展Agent

一句话总结¶

提出 ARG-Designer，将多 Agent 系统的拓扑设计重新定义为条件自回归图生成任务，从零开始逐步生成 Agent 节点和通信边（而非从模板图剪枝），在6个基准上达到 SOTA（平均 92.78%），同时 Token 消耗比 G-Designer 降低约 50%，且支持无需重训练的角色扩展。

研究背景与动机¶

领域现状：LLM 多 Agent 系统的有效性关键取决于协作拓扑——Agent 如何组织和交换信息。自动化拓扑设计已成为研究焦点，如 AgentPrune（剪边）、AgentDropout（随机丢弃）、G-Designer（图自编码器学习）。
现有痛点：现有方法遵循"模板图修改"范式——从预定义的全连接/密集模板开始，通过边重加权或剪枝来适配任务。两个关键限制：(1) 冗余组合：模板预设了所有可能的 Agent 角色，即使剪枝后仍可能保留不相关的 Agent/边；(2) 有限可扩展性：模型在固定模板上训练，无法泛化到新增的 Agent 角色或动态变化的 Agent 池。
核心矛盾：模板修改范式的搜索空间被预定义模板限制，无法真正实现"量身定制"的拓扑；扩大模板以覆盖所有可能角色的成本又过高。
本文要解决什么？ 如何从零构建一个仅包含必要 Agent 和最优通信链路的定制化多 Agent 拓扑？
切入角度：类比现实团队组建——不是先招满所有可能的人再裁员，而是根据任务需求逐步增加合适的成员。这启发了自回归图生成范式：逐步添加节点和边，直到拓扑完整。
核心idea一句话：将多 Agent 拓扑设计从"模板修改"转变为"条件自回归图生成"，从零构建在Agent数量、角色和连接上都最优的协作图。

方法详解¶

整体框架¶

将 MAS 建模为有向无环图 \(\mathcal{G} = (\mathcal{V}, \mathcal{E})\)，节点是带角色的 Agent，边是通信链路。ARG-Designer 是一个条件生成模型 \(P(\mathcal{G}|\mathcal{Q}, \mathcal{R})\)，以任务查询 \(\mathcal{Q}\) 和角色池 \(\mathcal{R}\) 为条件，自回归地分解为节点生成和边生成的序列：\(P(\mathcal{G}|\mathcal{Q}, \mathcal{R}) = \prod_{i=1}^{|\mathcal{V}|} P(v_i|\mathcal{G}_{<i}, \mathcal{Q}, \mathcal{R}) \cdot \prod_{j=1}^{i-1} P(e_{ji}|v_i, \mathcal{G}_{<i}, \mathcal{Q})\)。

关键设计¶

节点生成器 (Node Generator):
做什么：在每一步选择下一个 Agent 的角色，或输出 END 终止生成。
核心思路：用 GRU 聚合已生成 Agent 的历史嵌入 \(\mathbf{f}_{\text{hist}}^{(i)} = \text{GRU}_{\text{prev}}([\mathbf{z}_{r_1}, \ldots, \mathbf{z}_{r_{i-1}}])\)，通过动态门控与任务嵌入 \(\mathbf{f}_{\mathcal{Q}}\) 融合得到上下文嵌入，再经 GRU 更新隐状态。关键：角色选择使用度量学习（dot-product）而非固定分类器——将隐状态投影为"节点意图"嵌入，与角色嵌入矩阵点积得到选择概率。
设计动机：度量学习机制是可扩展性的关键——新角色只需追加嵌入行而无需修改或重训练模型，自然支持角色池的动态扩展。
边生成器 (Edge Generator):
做什么：确定新添加的 Agent \(v_i\) 应从哪些已有 Agent \(v_j\) \((j < i)\) 接收信息。
核心思路：以节点 GRU 的最终隐状态初始化边 GRU，逐个遍历已有节点，用 Sigmoid 预测每条边的存在概率 \(P(e_{j,i}=1) = \text{Sigmoid}(s_{\text{edge}}^{(i,j)})\)。
设计动机：条件化边生成（基于节点生成历史和完整上下文）使模型能学习复杂的结构依赖，而非独立地决定每条边。
课程学习训练策略:
做什么：两阶段训练——先学"生成正确有效的拓扑"，再学"生成精简高效的拓扑"。
核心思路：第一阶段（探索）：用复杂配置（多Agent、密集连接）生成成功的拓扑作为训练数据 \(\mathcal{D}_{\text{exp}}\)，让模型学会基本的协作模式。第二阶段（效率）：混合三种数据——简单配置的高效拓扑 \(\mathcal{D}_{\text{simple}}\)、对第一阶段密集图做系统化剪枝后仍成功的精简拓扑 \(\mathcal{D}_{\text{pruned}}\)、防遗忘的回放数据 \(\mathcal{D}_{\text{replay}}\)。
设计动机：直接学精简拓扑会有冷启动问题（模型不知道什么是"正确"的协作），先学密集再精简是自然的课程，且效率微调能在不损失性能的前提下将 Token 消耗降低 30-34%。

损失函数 / 训练策略¶

总体为负对数似然损失：\(\mathcal{L}_{\text{total}} = \alpha \cdot \mathcal{L}_{\text{node}} + (1-\alpha) \cdot \mathcal{L}_{\text{edge}}\)，\(\alpha=0.2\)（边生成更重要）。仅用 40-60 个查询就能训练出有效模型。使用 Teacher Forcing 加速训练。

实验关键数据¶

主实验¶

6个基准上的准确率对比（GPT-4o 作为底层 LLM）：

方法	MMLU	GSM8K	AQuA	MultiArith	SVAMP	HumanEval	平均
Vanilla (单Agent)	80.39	82.30	71.06	93.09	86.55	71.39	80.80
LLM-Debate	84.96	91.40	77.65	96.36	90.11	84.70	87.53
AgentPrune	85.07	91.10	80.51	94.65	90.58	86.75	88.09
G-Designer	86.92	93.80	81.60	96.50	93.10	88.33	90.04
ARG-Designer	89.54	94.40	86.45	98.93	95.63	91.74	92.78

消融实验¶

配置	MMLU	GSM8K	HumanEval	平均
ARG-Designer	89.54	94.40	91.74	91.89
w/o fine-tune	88.23	94.70	90.91	91.28
w/o task emb.	86.93	93.10	89.26	89.76
w/o hist. emb.	88.23	93.60	90.08	90.64

关键发现¶

ARG-Designer 在所有6个基准上都是 SOTA，平均比 G-Designer 高 2.74%，比 Vanilla 单 Agent 高 11.98%。
Token 效率：在 GSM8K 上仅用 4.1M token，比 G-Designer 节省约 50%——因为从零生成的拓扑更精简，避免了模板修改的冗余。
任务嵌入是最关键的组件：去掉后平均下降 2.13%，说明条件化于任务查询是生成定制拓扑的核心。
鲁棒性：面对 prompt injection 攻击时性能仅下降 2.15%（最低），因为生成的拓扑天然具有分布式风险和冗余通信路径。
可扩展性验证：在不重训练的情况下添加"律师"角色，模型能正确识别其与法律问题的相关性并动态生成以律师为核心的协作图。

亮点与洞察¶

从"模板修改"到"自回归生成"的范式转变是这篇论文的核心贡献。这不仅是方法层面的创新，更是问题建模层面的重新定义——将 MAS 拓扑设计视为条件图生成而非图编辑，打开了巨大的设计空间。
度量学习选角色的设计非常巧妙：一般做法是固定维度的分类器（角色数=类别数），而 ARG-Designer 用嵌入空间的相似度匹配，使角色池可以在推理时动态扩展。
课程学习策略值得借鉴：先学"什么能用"（密集+正确），再学"什么高效"（精简+正确），两阶段之间用回放数据防遗忘。这个思路可推广到其他"先学对再学好"的场景。

局限性 / 可改进方向¶

节点生成顺序（ordering）对自回归模型有影响——论文未深入讨论不同排序策略的影响，这在图生成领域是已知的关键问题。
训练数据通过试错生成（执行拓扑看是否成功），数据构建成本高（需要大量 LLM 调用），论文仅用 40-60 个查询训练，规模化到更大场景的可行性未知。
仅使用 GPT-4o 作为底层 LLM，在异构 LLM 场景（不同节点用不同能力的 LLM）下的表现未探索。
通信轮数 \(K=3\) 是固定的预设值，未做自适应。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 范式转变（模板修改→自回归生成）是重要的概念贡献，度量学习的可扩展设计精巧。
实验充分度: ⭐⭐⭐⭐ 6个基准+消融+鲁棒性+可扩展性+案例分析，全面充分。
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，与现有范式的对比用图示直观展示，逻辑流畅。
价值: ⭐⭐⭐⭐⭐ 为多Agent拓扑自动化设计开辟了全新方向，框架优雅且有强实验支撑。