BAMAS: Structuring Budget-Aware Multi-Agent Systems¶

会议: AAAI 2026
arXiv: 2511.21572
代码: https://github.com/chunfenri/BAMAS (有)
领域: LLM Agent / 多Agent系统
关键词: 预算感知, 多Agent协作, 整数线性规划, 拓扑选择, 强化学习

一句话总结¶

提出 BAMAS 框架，通过整数线性规划（ILP）在预算约束下选择最优 LLM 组合，再用强化学习策略选择最佳协作拓扑（线性/星型/反馈/规划驱动），在 GSM8K/MBPP/MATH 上达到与 SOTA 多 Agent 系统相当的准确率，同时成本降低最高 86%。

研究背景与动机¶

领域现状：LLM 多 Agent 系统（AutoGen、MetaGPT、ChatDev）通过多 Agent 协作处理复杂任务，但主要关注性能最大化，几乎不考虑成本控制。单个任务可能需要数十次 LLM 调用，成本随协作拓扑和推理深度不可预测地增长。
现有痛点：(1) 现有框架把成本当作事后考量，缺乏主动的预算管理；(2) 用户无法指定预算上限来约束系统行为；(3) 不同拓扑结构适合不同任务和预算水平，但现有系统用固定拓扑，无法自适应调整。
核心矛盾：性能和成本之间存在 trade-off——使用更强的 LLM 和更复杂的协作拓扑能提升性能，但成本也会大幅增加。需要在给定预算下找到最优的 LLM 分配和协作策略。
本文要解决什么？ 给定任务、可用 LLM 池和预算上限，如何自动构建一个性能最优的多 Agent 系统？
切入角度：将问题分解为两个可优化的子问题——LLM 选择（组合优化→ILP）和拓扑选择（策略学习→RL），分别用经典优化和学习方法求解。
核心idea一句话：用 ILP 做预算约束下的 LLM 选择，用 RL 做任务和预算自适应的拓扑选择，实现可调节的成本-性能 trade-off。

方法详解¶

整体框架¶

BAMAS 三阶段：(1) 预算约束 LLM 配置——用 ILP 从 LLM 池中选择预算内最优的 LLM 子集 \(\mathcal{P}\)；(2) 协作拓扑选择——用 RL 策略 \(\pi_\theta\) 根据任务描述和预算选择最佳拓扑 \(t\)；(3) Agent 实例化——将 \(\mathcal{P}\) 中的 LLM 按拓扑 \(t\) 分配角色（执行者/评审者/规划者）并执行任务。

关键设计¶

预算约束 LLM 配置（ILP）:
做什么：在预算 \(B\) 内选择性能最优的 LLM 组合。
核心思路：将 LLM 按性能排成层级（\(\mathcal{A}_1\) 最强到 \(\mathcal{A}_L\) 最弱），用 LMSys 排行榜作为性能代理。构造递归权重 \(W_i = 1 + \sum_{j=i+1}^{L}(W_j \cdot \lfloor B/c_j \rfloor)\) 保证高层级 LLM 的权重始终大于任何低层级组合。ILP 目标为 \(\max \sum W_i \cdot x_{ij}\)，约束总成本 \(\leq B\) 且至少选 2 个 LLM。
设计动机：实证表明单个强模型常优于弱模型集成，因此采用"性能优先"选择策略。ILP 保证了精确的全局最优解，避免贪心策略的局部最优。
协作拓扑选择（RL）:
做什么：根据任务特征和预算水平，从4种拓扑中选择最合适的协作模式。
核心思路：策略网络 \(\pi_\theta(t|T,B)\) 以任务嵌入（MiniLM 384维）和预算标量为输入，输出4种拓扑的概率分布。使用离线 REINFORCE 训练，复合奖励 \(R_{\text{final}} = w_{\text{perf}} \cdot R_{\text{perf}} + w_{\text{cost}} \cdot R_{\text{cost}}\)，其中成功奖励、超预算惩罚和预算节省奖金共同引导策略学习。
设计动机：不同任务需要不同协作模式（数学推理偏好 Feedback 反馈迭代，代码生成偏好 Linear 线性流水线），固定拓扑无法适应。用 RL 而非规则是因为最优拓扑还依赖预算水平（低预算时倾向简单拓扑以避免超支）。
4种协作拓扑库:
Linear: 顺序推理，后一个 Agent 基于前一个的输出继续。适合多步推理。
Star: 并行假设生成+评估，分治策略。适合可分解问题。
Feedback: 生成-评审循环迭代精炼。适合需要自我纠正的任务。
Planner-Driven: 中央规划者动态协调。最灵活但成本最高、不稳定性最大。

损失函数 / 训练策略¶

RL 损失为策略梯度 + 熵正则化：\(\mathcal{L}(\theta) = -\hat{\mathbb{E}}[\log \pi_\theta(t|T,B) \cdot R_{\text{final}}(\tau)] - \beta \cdot H(\pi_\theta)\)。离线训练避免在线收集数据的高成本。用 Adam 优化器，batch size 20000，训练 10 epochs。

实验关键数据¶

主实验¶

GSM8K 和 MBPP 上的成本-准确率对比：

方法	设置	GSM8K Acc(%)	GSM8K Cost	MBPP Acc(%)	MBPP Cost
AutoGen	DeepSeek-V3	95.4	1425.3	80.8	2661.3
MetaGPT	DeepSeek-V3	93.5	3235.4	82.2	3735.1
ChatDev	DeepSeek-V3	95.0	2733.1	81.2	3635.1
BAMAS	Budget 1625	95.3	542.9	–	–
BAMAS	Budget 1250	94.9	447.0	82.6	529.2

MATH 数据集：

方法	Acc(%)	Cost
AutoGen (GPT-4.1 nano)	77.6	797.2
BAMAS (Budget 2000)	81.2	646.0

消融实验¶

配置	GSM8K Acc(%)	GSM8K Cost	说明
Naive-CostAware L5+DeepSeek	95.3	1650.8	贪心5级，最高但贵
BAMAS Budget 1625	95.3	542.9	同准确率，成本降67%
Naive-CostAware L1+GPT-nano	89.7	216.7	最便宜但准确率低
BAMAS Budget 500	87.9	222.4	类似成本，可调节

关键发现¶

BAMAS 在 MBPP 上达到 82.6% 时成本仅 529.2，比 MetaGPT(3735.1) 降低 86%——这是最显著的成本降低。
策略学习到了有意义的模式：数学任务倾向 Feedback 拓扑（MATH 69.8%），代码任务倾向 Linear 拓扑。
低预算时策略偏向简单拓扑（Linear/Star），高预算时敢选复杂拓扑（Feedback）——体现了风险意识。
Planner-Driven 拓扑从未被选中——RL 学到了它虽然灵活但成本高且不稳定，不值得冒险。
超预算率极低：GSM8K 全部0次，MBPP 最多5/500次（1%），说明预算控制有效。

亮点与洞察¶

将多 Agent 系统构建问题分解为"选谁"（ILP）和"怎么合作"（RL）两个可优化子问题的思路很清晰，各自用最合适的优化方法求解。
递归权重设计保证了 ILP 的词典序最优性——高层级 LLM 权重总是大于任何低层级组合，这是一个简洁有效的建模技巧。
RL 策略学到的拓扑选择偏好具有很好的可解释性（数学→反馈迭代，代码→线性流水线，低预算→简单拓扑），不是黑盒。

局限性 / 可改进方向¶

仅使用了 2 种 LLM（DeepSeek-V3 和 GPT-4.1 nano），LLM 池太小，难以充分展示 ILP 在大规模 LLM 选择中的优势。
4种拓扑是预定义的，不支持自动发现新的协作模式。实际中可能需要混合拓扑（如不同阶段用不同拓扑）。
成本估算使用固定 token 数（输入500），但实际 token 消耗变异很大，可能导致预算估算不准。
仅评估代码生成和数学推理两类任务，缺乏对更多样化任务（如创意写作、信息检索）的验证。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统地将预算约束引入多 Agent 系统构建，ILP+RL 的组合优化思路新颖。
实验充分度: ⭐⭐⭐ 三个数据集但仅2种 LLM，缺乏更大规模和更多样化场景的验证。
写作质量: ⭐⭐⭐⭐ 研全清晰，RQ驱动的评估结构化，图表丰富。
价值: ⭐⭐⭐⭐ 成本感知是多 Agent 系统实际部署的关键需求，BAMAS 提出了一个可行的解决方案。