Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems¶

会议: ICLR 2026
arXiv: 2510.26585
代码: 无
领域: 模型压缩 / 多智能体效率
关键词: 多智能体系统, Token 效率, 运行时监督, 自适应过滤, 错误纠正

一句话总结¶

提出 SupervisorAgent，一个轻量级的实时自适应监督框架，通过无 LLM 的自适应过滤器在关键交互节点主动干预（纠错、指导、观察净化），在 GAIA 基准上将 Smolagent 的 token 消耗降低 29.68% 而不损失成功率。

研究背景与动机¶

多智能体系统（MAS）在复杂任务上表现出色，但面临效率与鲁棒性悖论：
- 错误传播：单个幻觉信息污染整个推理链的下游代理
- 低效行为：代理进入重复操作循环、选择不必要的复杂路径
- 上下文膨胀：冗长的工具返回（如原始 HTML）充斥上下文窗口
现有方法主要关注事后归因（post-hoc failure attribution），缺乏实时主动干预

方法详解¶

整体框架：监督型多智能体系统（SMAS）¶

在原有 MAS 基础上增加一个元级控制代理——SupervisorAgent，实时监控三类高风险交互：

Agent-Agent 交互：代理间通信/委托，易传播幻觉信息
Agent-Tool 交互：外部工具调用，返回不准确/无关/过时数据
Agent-Memory 交互：记忆检索，可能使用过期或有缺陷的历史信息

自适应过滤器（When to Supervise）¶

无 LLM 的轻量级启发式过滤器，仅在关键节点触发监督：

错误发生 \(c_{error}\)：显式错误（工具调用失败、代码执行错误）
低效行为 \(c_{inefficient}\)：重复操作循环（如反复 page_down）
观察过长 \(c_{excessive}\)：工具返回超长内容（如原始 HTML）

上下文窗口¶

\[\mathcal{W} = (N, Q_g, Q_l, T_l, S)\]

\(N\): 被监督代理名称
\(Q_g, Q_l\): 全局目标和局部任务
\(T_l\): 局部行动轨迹
\(S\): 最新交互摘要
扩展版 \(\mathcal{W}_{ext}\) 包含全局轨迹 \(T_g\) 用于诊断系统级低效

多级干预动作空间（How to Supervise）¶

动作	强度	触发条件	描述
approve	最低	\(c_{inefficient}\)	允许有效的重复行为继续
provide_guidance	中等	\(c_{error}, c_{inefficient}\)	追加引导提示纠正推理路径
correct_observation	高	\(c_{error}, c_{excessive}\)	替换/净化原始观察内容
run_verification	最高	\(c_{error}\)	调用验证子代理做外部事实检查

核心设计原则¶

非侵入式：不修改基础代理架构
自适应：不对每个交互都监督，仅在高风险节点触发
记忆增强：SupervisorAgent 拥有比任何单个代理更全面的系统状态视角

实验关键数据¶

GAIA 基准主实验¶

方法	平均准确率	平均 Token (K)	L2 Token (K)
CodeAgent	40.00	120.40	—
Smolagent (pass@1)	—	基线	基线
SMAS (pass@1)	持平	-29.68%	-35%

GAIA Level 2 详细分析¶

指标	Smolagent	SMAS	改善
Token 消耗	基线	-35%	显著
方差	基线	-63%	大幅降低
步骤数 (案例)	基线	-43%	显著

跨基准验证¶

基准	领域	Token 减少	准确率变化
HumanEval	代码生成	-23.74%	+提升
MBPP	代码生成	显著减少	持平/提升
AIME 2024	数学推理	减少	持平
GSM8k-Hard	数学推理	减少	持平
DROP	问答	减少	持平

关键发现¶

HumanEval 上实现 23.74% token 减少的同时准确率还提升了
SupervisorAgent 跨 GPT-4.1、Gemini-2.5-pro、Qwen3 系列均有效
自适应过滤器有效控制了监督开销，避免了对每个交互的冗余检查
案例分析显示一次成功的监督干预可减少 70%+ 的 token 消耗

亮点与洞察¶

实时主动干预 vs 事后分析：从 reactive 到 proactive 的范式转变
Pareto 改善：降低 token 消耗的同时不损失（甚至提升）成功率
无 LLM 过滤器：关键创新在于用简单启发式替代 LLM 来决定"何时监督"
与现有方法正交：可叠加到任意现有 MAS 框架上
方差大幅减少：更稳定可靠的系统行为

局限性¶

自适应过滤器基于预定义的启发式规则，可能错过某些新类型的高风险交互
SupervisorAgent 本身的 LLM 调用也有成本，需要权衡监督收益与监督开销
主要在 Smolagent 框架上验证，在其他 MAS 框架上的适配可能需要调整
对于不使用工具的纯对话任务，框架的适用性有限

评分¶

新颖性: ⭐⭐⭐⭐ — 运行时监督的概念新颖，非侵入式设计实用
技术深度: ⭐⭐⭐ — 方法相对直觉，技术复杂度适中
实验充分性: ⭐⭐⭐⭐⭐ — 6 基准 × 多基础模型 × 详细案例分析
实用性: ⭐⭐⭐⭐⭐ — 直接可部署，对降低 MAS 运营成本有重要价值