跳转至

BAMAS: Structuring Budget-Aware Multi-Agent Systems

会议: AAAI 2026
arXiv: 2511.21572
代码: https://github.com/chunfenri/BAMAS (有)
领域: LLM Agent / 多Agent系统
关键词: 预算感知, 多Agent协作, 整数线性规划, 拓扑选择, 强化学习

一句话总结

提出 BAMAS 框架,通过整数线性规划(ILP)在预算约束下选择最优 LLM 组合,再用强化学习策略选择最佳协作拓扑(线性/星型/反馈/规划驱动),在 GSM8K/MBPP/MATH 上达到与 SOTA 多 Agent 系统相当的准确率,同时成本降低最高 86%。

研究背景与动机

  1. 领域现状:LLM 多 Agent 系统(AutoGen、MetaGPT、ChatDev)通过多 Agent 协作处理复杂任务,但主要关注性能最大化,几乎不考虑成本控制。单个任务可能需要数十次 LLM 调用,成本随协作拓扑和推理深度不可预测地增长。
  2. 现有痛点:(1) 现有框架把成本当作事后考量,缺乏主动的预算管理;(2) 用户无法指定预算上限来约束系统行为;(3) 不同拓扑结构适合不同任务和预算水平,但现有系统用固定拓扑,无法自适应调整。
  3. 核心矛盾:性能和成本之间存在 trade-off——使用更强的 LLM 和更复杂的协作拓扑能提升性能,但成本也会大幅增加。需要在给定预算下找到最优的 LLM 分配和协作策略。
  4. 本文要解决什么? 给定任务、可用 LLM 池和预算上限,如何自动构建一个性能最优的多 Agent 系统?
  5. 切入角度:将问题分解为两个可优化的子问题——LLM 选择(组合优化→ILP)和拓扑选择(策略学习→RL),分别用经典优化和学习方法求解。
  6. 核心idea一句话:用 ILP 做预算约束下的 LLM 选择,用 RL 做任务和预算自适应的拓扑选择,实现可调节的成本-性能 trade-off。

方法详解

整体框架

BAMAS 三阶段:(1) 预算约束 LLM 配置——用 ILP 从 LLM 池中选择预算内最优的 LLM 子集 \(\mathcal{P}\);(2) 协作拓扑选择——用 RL 策略 \(\pi_\theta\) 根据任务描述和预算选择最佳拓扑 \(t\);(3) Agent 实例化——将 \(\mathcal{P}\) 中的 LLM 按拓扑 \(t\) 分配角色(执行者/评审者/规划者)并执行任务。

关键设计

  1. 预算约束 LLM 配置(ILP):
  2. 做什么:在预算 \(B\) 内选择性能最优的 LLM 组合。
  3. 核心思路:将 LLM 按性能排成层级(\(\mathcal{A}_1\) 最强到 \(\mathcal{A}_L\) 最弱),用 LMSys 排行榜作为性能代理。构造递归权重 \(W_i = 1 + \sum_{j=i+1}^{L}(W_j \cdot \lfloor B/c_j \rfloor)\) 保证高层级 LLM 的权重始终大于任何低层级组合。ILP 目标为 \(\max \sum W_i \cdot x_{ij}\),约束总成本 \(\leq B\) 且至少选 2 个 LLM。
  4. 设计动机:实证表明单个强模型常优于弱模型集成,因此采用"性能优先"选择策略。ILP 保证了精确的全局最优解,避免贪心策略的局部最优。

  5. 协作拓扑选择(RL):

  6. 做什么:根据任务特征和预算水平,从4种拓扑中选择最合适的协作模式。
  7. 核心思路:策略网络 \(\pi_\theta(t|T,B)\) 以任务嵌入(MiniLM 384维)和预算标量为输入,输出4种拓扑的概率分布。使用离线 REINFORCE 训练,复合奖励 \(R_{\text{final}} = w_{\text{perf}} \cdot R_{\text{perf}} + w_{\text{cost}} \cdot R_{\text{cost}}\),其中成功奖励、超预算惩罚和预算节省奖金共同引导策略学习。
  8. 设计动机:不同任务需要不同协作模式(数学推理偏好 Feedback 反馈迭代,代码生成偏好 Linear 线性流水线),固定拓扑无法适应。用 RL 而非规则是因为最优拓扑还依赖预算水平(低预算时倾向简单拓扑以避免超支)。

  9. 4种协作拓扑库:

  10. Linear: 顺序推理,后一个 Agent 基于前一个的输出继续。适合多步推理。
  11. Star: 并行假设生成+评估,分治策略。适合可分解问题。
  12. Feedback: 生成-评审循环迭代精炼。适合需要自我纠正的任务。
  13. Planner-Driven: 中央规划者动态协调。最灵活但成本最高、不稳定性最大。

损失函数 / 训练策略

RL 损失为策略梯度 + 熵正则化:\(\mathcal{L}(\theta) = -\hat{\mathbb{E}}[\log \pi_\theta(t|T,B) \cdot R_{\text{final}}(\tau)] - \beta \cdot H(\pi_\theta)\)。离线训练避免在线收集数据的高成本。用 Adam 优化器,batch size 20000,训练 10 epochs。

实验关键数据

主实验

GSM8K 和 MBPP 上的成本-准确率对比:

方法 设置 GSM8K Acc(%) GSM8K Cost MBPP Acc(%) MBPP Cost
AutoGen DeepSeek-V3 95.4 1425.3 80.8 2661.3
MetaGPT DeepSeek-V3 93.5 3235.4 82.2 3735.1
ChatDev DeepSeek-V3 95.0 2733.1 81.2 3635.1
BAMAS Budget 1625 95.3 542.9
BAMAS Budget 1250 94.9 447.0 82.6 529.2

MATH 数据集:

方法 Acc(%) Cost
AutoGen (GPT-4.1 nano) 77.6 797.2
BAMAS (Budget 2000) 81.2 646.0

消融实验

配置 GSM8K Acc(%) GSM8K Cost 说明
Naive-CostAware L5+DeepSeek 95.3 1650.8 贪心5级,最高但贵
BAMAS Budget 1625 95.3 542.9 同准确率,成本降67%
Naive-CostAware L1+GPT-nano 89.7 216.7 最便宜但准确率低
BAMAS Budget 500 87.9 222.4 类似成本,可调节

关键发现

  • BAMAS 在 MBPP 上达到 82.6% 时成本仅 529.2,比 MetaGPT(3735.1) 降低 86%——这是最显著的成本降低。
  • 策略学习到了有意义的模式:数学任务倾向 Feedback 拓扑(MATH 69.8%),代码任务倾向 Linear 拓扑。
  • 低预算时策略偏向简单拓扑(Linear/Star),高预算时敢选复杂拓扑(Feedback)——体现了风险意识。
  • Planner-Driven 拓扑从未被选中——RL 学到了它虽然灵活但成本高且不稳定,不值得冒险。
  • 超预算率极低:GSM8K 全部0次,MBPP 最多5/500次(1%),说明预算控制有效。

亮点与洞察

  • 将多 Agent 系统构建问题分解为"选谁"(ILP)和"怎么合作"(RL)两个可优化子问题的思路很清晰,各自用最合适的优化方法求解。
  • 递归权重设计保证了 ILP 的词典序最优性——高层级 LLM 权重总是大于任何低层级组合,这是一个简洁有效的建模技巧。
  • RL 策略学到的拓扑选择偏好具有很好的可解释性(数学→反馈迭代,代码→线性流水线,低预算→简单拓扑),不是黑盒。

局限性 / 可改进方向

  • 仅使用了 2 种 LLM(DeepSeek-V3 和 GPT-4.1 nano),LLM 池太小,难以充分展示 ILP 在大规模 LLM 选择中的优势。
  • 4种拓扑是预定义的,不支持自动发现新的协作模式。实际中可能需要混合拓扑(如不同阶段用不同拓扑)。
  • 成本估算使用固定 token 数(输入500),但实际 token 消耗变异很大,可能导致预算估算不准。
  • 仅评估代码生成和数学推理两类任务,缺乏对更多样化任务(如创意写作、信息检索)的验证。

相关工作与启发

  • vs AutoGen: AutoGen 提供灵活的 Agent 架构但不考虑预算。BAMAS 可以视为 AutoGen 的预算感知包装层,先决定用什么模型和拓扑,再用类似 AutoGen 的引擎执行。
  • vs FrugalGPT/TREACLE: 这些工作做单模型的成本优化(路由/级联),BAMAS 将成本优化扩展到多 Agent 协作场景,需要同时优化模型选择和协作策略。
  • vs ADAS: ADAS 自动设计 Agent 系统架构但不考虑成本约束。BAMAS 补充了成本维度的优化。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统地将预算约束引入多 Agent 系统构建,ILP+RL 的组合优化思路新颖。
  • 实验充分度: ⭐⭐⭐ 三个数据集但仅2种 LLM,缺乏更大规模和更多样化场景的验证。
  • 写作质量: ⭐⭐⭐⭐ 研全清晰,RQ驱动的评估结构化,图表丰富。
  • 价值: ⭐⭐⭐⭐ 成本感知是多 Agent 系统实际部署的关键需求,BAMAS 提出了一个可行的解决方案。