BAMAS: Structuring Budget-Aware Multi-Agent Systems¶
会议: AAAI 2026
arXiv: 2511.21572
代码: https://github.com/chunfenri/BAMAS (有)
领域: LLM Agent / 多Agent系统
关键词: 预算感知, 多Agent协作, 整数线性规划, 拓扑选择, 强化学习
一句话总结¶
提出 BAMAS 框架,通过整数线性规划(ILP)在预算约束下选择最优 LLM 组合,再用强化学习策略选择最佳协作拓扑(线性/星型/反馈/规划驱动),在 GSM8K/MBPP/MATH 上达到与 SOTA 多 Agent 系统相当的准确率,同时成本降低最高 86%。
研究背景与动机¶
- 领域现状:LLM 多 Agent 系统(AutoGen、MetaGPT、ChatDev)通过多 Agent 协作处理复杂任务,但主要关注性能最大化,几乎不考虑成本控制。单个任务可能需要数十次 LLM 调用,成本随协作拓扑和推理深度不可预测地增长。
- 现有痛点:(1) 现有框架把成本当作事后考量,缺乏主动的预算管理;(2) 用户无法指定预算上限来约束系统行为;(3) 不同拓扑结构适合不同任务和预算水平,但现有系统用固定拓扑,无法自适应调整。
- 核心矛盾:性能和成本之间存在 trade-off——使用更强的 LLM 和更复杂的协作拓扑能提升性能,但成本也会大幅增加。需要在给定预算下找到最优的 LLM 分配和协作策略。
- 本文要解决什么? 给定任务、可用 LLM 池和预算上限,如何自动构建一个性能最优的多 Agent 系统?
- 切入角度:将问题分解为两个可优化的子问题——LLM 选择(组合优化→ILP)和拓扑选择(策略学习→RL),分别用经典优化和学习方法求解。
- 核心idea一句话:用 ILP 做预算约束下的 LLM 选择,用 RL 做任务和预算自适应的拓扑选择,实现可调节的成本-性能 trade-off。
方法详解¶
整体框架¶
BAMAS 三阶段:(1) 预算约束 LLM 配置——用 ILP 从 LLM 池中选择预算内最优的 LLM 子集 \(\mathcal{P}\);(2) 协作拓扑选择——用 RL 策略 \(\pi_\theta\) 根据任务描述和预算选择最佳拓扑 \(t\);(3) Agent 实例化——将 \(\mathcal{P}\) 中的 LLM 按拓扑 \(t\) 分配角色(执行者/评审者/规划者)并执行任务。
关键设计¶
- 预算约束 LLM 配置(ILP):
- 做什么:在预算 \(B\) 内选择性能最优的 LLM 组合。
- 核心思路:将 LLM 按性能排成层级(\(\mathcal{A}_1\) 最强到 \(\mathcal{A}_L\) 最弱),用 LMSys 排行榜作为性能代理。构造递归权重 \(W_i = 1 + \sum_{j=i+1}^{L}(W_j \cdot \lfloor B/c_j \rfloor)\) 保证高层级 LLM 的权重始终大于任何低层级组合。ILP 目标为 \(\max \sum W_i \cdot x_{ij}\),约束总成本 \(\leq B\) 且至少选 2 个 LLM。
-
设计动机:实证表明单个强模型常优于弱模型集成,因此采用"性能优先"选择策略。ILP 保证了精确的全局最优解,避免贪心策略的局部最优。
-
协作拓扑选择(RL):
- 做什么:根据任务特征和预算水平,从4种拓扑中选择最合适的协作模式。
- 核心思路:策略网络 \(\pi_\theta(t|T,B)\) 以任务嵌入(MiniLM 384维)和预算标量为输入,输出4种拓扑的概率分布。使用离线 REINFORCE 训练,复合奖励 \(R_{\text{final}} = w_{\text{perf}} \cdot R_{\text{perf}} + w_{\text{cost}} \cdot R_{\text{cost}}\),其中成功奖励、超预算惩罚和预算节省奖金共同引导策略学习。
-
设计动机:不同任务需要不同协作模式(数学推理偏好 Feedback 反馈迭代,代码生成偏好 Linear 线性流水线),固定拓扑无法适应。用 RL 而非规则是因为最优拓扑还依赖预算水平(低预算时倾向简单拓扑以避免超支)。
-
4种协作拓扑库:
- Linear: 顺序推理,后一个 Agent 基于前一个的输出继续。适合多步推理。
- Star: 并行假设生成+评估,分治策略。适合可分解问题。
- Feedback: 生成-评审循环迭代精炼。适合需要自我纠正的任务。
- Planner-Driven: 中央规划者动态协调。最灵活但成本最高、不稳定性最大。
损失函数 / 训练策略¶
RL 损失为策略梯度 + 熵正则化:\(\mathcal{L}(\theta) = -\hat{\mathbb{E}}[\log \pi_\theta(t|T,B) \cdot R_{\text{final}}(\tau)] - \beta \cdot H(\pi_\theta)\)。离线训练避免在线收集数据的高成本。用 Adam 优化器,batch size 20000,训练 10 epochs。
实验关键数据¶
主实验¶
GSM8K 和 MBPP 上的成本-准确率对比:
| 方法 | 设置 | GSM8K Acc(%) | GSM8K Cost | MBPP Acc(%) | MBPP Cost |
|---|---|---|---|---|---|
| AutoGen | DeepSeek-V3 | 95.4 | 1425.3 | 80.8 | 2661.3 |
| MetaGPT | DeepSeek-V3 | 93.5 | 3235.4 | 82.2 | 3735.1 |
| ChatDev | DeepSeek-V3 | 95.0 | 2733.1 | 81.2 | 3635.1 |
| BAMAS | Budget 1625 | 95.3 | 542.9 | – | – |
| BAMAS | Budget 1250 | 94.9 | 447.0 | 82.6 | 529.2 |
MATH 数据集:
| 方法 | Acc(%) | Cost |
|---|---|---|
| AutoGen (GPT-4.1 nano) | 77.6 | 797.2 |
| BAMAS (Budget 2000) | 81.2 | 646.0 |
消融实验¶
| 配置 | GSM8K Acc(%) | GSM8K Cost | 说明 |
|---|---|---|---|
| Naive-CostAware L5+DeepSeek | 95.3 | 1650.8 | 贪心5级,最高但贵 |
| BAMAS Budget 1625 | 95.3 | 542.9 | 同准确率,成本降67% |
| Naive-CostAware L1+GPT-nano | 89.7 | 216.7 | 最便宜但准确率低 |
| BAMAS Budget 500 | 87.9 | 222.4 | 类似成本,可调节 |
关键发现¶
- BAMAS 在 MBPP 上达到 82.6% 时成本仅 529.2,比 MetaGPT(3735.1) 降低 86%——这是最显著的成本降低。
- 策略学习到了有意义的模式:数学任务倾向 Feedback 拓扑(MATH 69.8%),代码任务倾向 Linear 拓扑。
- 低预算时策略偏向简单拓扑(Linear/Star),高预算时敢选复杂拓扑(Feedback)——体现了风险意识。
- Planner-Driven 拓扑从未被选中——RL 学到了它虽然灵活但成本高且不稳定,不值得冒险。
- 超预算率极低:GSM8K 全部0次,MBPP 最多5/500次(1%),说明预算控制有效。
亮点与洞察¶
- 将多 Agent 系统构建问题分解为"选谁"(ILP)和"怎么合作"(RL)两个可优化子问题的思路很清晰,各自用最合适的优化方法求解。
- 递归权重设计保证了 ILP 的词典序最优性——高层级 LLM 权重总是大于任何低层级组合,这是一个简洁有效的建模技巧。
- RL 策略学到的拓扑选择偏好具有很好的可解释性(数学→反馈迭代,代码→线性流水线,低预算→简单拓扑),不是黑盒。
局限性 / 可改进方向¶
- 仅使用了 2 种 LLM(DeepSeek-V3 和 GPT-4.1 nano),LLM 池太小,难以充分展示 ILP 在大规模 LLM 选择中的优势。
- 4种拓扑是预定义的,不支持自动发现新的协作模式。实际中可能需要混合拓扑(如不同阶段用不同拓扑)。
- 成本估算使用固定 token 数(输入500),但实际 token 消耗变异很大,可能导致预算估算不准。
- 仅评估代码生成和数学推理两类任务,缺乏对更多样化任务(如创意写作、信息检索)的验证。
相关工作与启发¶
- vs AutoGen: AutoGen 提供灵活的 Agent 架构但不考虑预算。BAMAS 可以视为 AutoGen 的预算感知包装层,先决定用什么模型和拓扑,再用类似 AutoGen 的引擎执行。
- vs FrugalGPT/TREACLE: 这些工作做单模型的成本优化(路由/级联),BAMAS 将成本优化扩展到多 Agent 协作场景,需要同时优化模型选择和协作策略。
- vs ADAS: ADAS 自动设计 Agent 系统架构但不考虑成本约束。BAMAS 补充了成本维度的优化。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统地将预算约束引入多 Agent 系统构建,ILP+RL 的组合优化思路新颖。
- 实验充分度: ⭐⭐⭐ 三个数据集但仅2种 LLM,缺乏更大规模和更多样化场景的验证。
- 写作质量: ⭐⭐⭐⭐ 研全清晰,RQ驱动的评估结构化,图表丰富。
- 价值: ⭐⭐⭐⭐ 成本感知是多 Agent 系统实际部署的关键需求,BAMAS 提出了一个可行的解决方案。