AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search¶

会议: AAAI 2026
arXiv: 2506.06017
代码: https://github.com/Ericccc02/AgentSwift
领域: Agent
关键词: 自动化Agent设计, MCTS, Value Model, 层次搜索空间, 功能组件

一句话总结¶

提出AgentSwift框架，通过层次化搜索空间（同时优化agentic workflow和功能组件）、轻量级value model预测agent性能、以及不确定性引导的MCTS搜索策略，自动发现高性能LLM agent设计，在7个基准上平均提升8.34%。

研究背景与动机¶

领域现状：LLM agent已在多种任务上展现强大能力，但agent的设计仍然高度依赖人工——从workflow组织到memory、planning、tool use等功能组件的选择与配置，都需要大量expert knowledge和反复调参。
现有痛点：已有的自动化agent设计方法存在三个主要问题：
搜索空间受限：AFlow、ADAS等方法只优化agentic workflow结构，不涉及memory/planning/tool use等功能组件，无法发现完整的agent架构
评估成本过高：每评估一个新agent都需要在benchmark上完整运行（如ALFWorld上一个CoT agent评估需~$60），大量低质量candidate浪费资源
搜索效率低下：面对巨大设计空间，现有搜索策略（如AFlow的局部优化）容易陷入局部最优
核心矛盾：设计空间的组合爆炸性（workflow × memory × tool × planning）与单次评估的高成本之间的根本矛盾，使得穷举式搜索不可行，而局部搜索又容易遗漏优质设计
本文要解决什么？
如何构建一个同时包含workflow和功能组件的统一搜索空间？
如何用低成本替代昂贵的真实评估？
如何高效地在巨大搜索空间中导航？
切入角度：借鉴NAS（神经架构搜索）中performance predictor的思路——在NAS中，训练一个性能预测模型来替代完整训练评估已被证明非常有效，agent设计问题与NAS高度类似
核心idea一句话：将agent设计形式化为workflow+功能组件的层次搜索问题，用轻量value model做低成本评估，用不确定性引导的MCTS做高效搜索

方法详解¶

整体框架¶

AgentSwift的pipeline分三个核心模块： - 输入：任务描述 $d$ + 性能评估函数 $\text{Eval}_d(\cdot)$ - 搜索空间：层次化定义 $\mathbf{A} = (\mathbf{W}, \mathbf{M}, \mathbf{T}, \mathbf{P})$，其中$\mathbf{W}$是agentic workflow、$\mathbf{M}$是memory、$\mathbf{T}$是tool use、$\mathbf{P}$是planning - 搜索引擎：不确定性引导的MCTS，每步通过recombination→mutation→refinement三级操作生成新candidate - 评估器：轻量级value model预测candidate性能得分，仅对top candidate做真实评估 - 输出：最优agent设计 $\mathbf{A}^* = \arg\max_{\mathbf{A} \in \mathcal{S}_{\text{agent}}} \text{Eval}_d(\mathbf{A})$

关键设计¶

层次化搜索空间:
做什么：统一定义workflow和功能组件的联合搜索空间
核心思路：Agentic workflow $\mathbf{W}=(N,E)$ 由节点（LLM调用步骤，含model/prompt/temperature/format）和边（执行顺序）组成。在此基础上，三个功能组件以plug-and-play方式挂载——Memory $\mathbf{M}=(m,\tau,d)$ 负责检索/存储上下文，Tool Use $\mathbf{T}=(t,\tau,u)$ 连接外部API，Planning $\mathbf{P}=(p,\tau)$ 做子目标分解。完整agent定义为 $\mathbf{A}=(\mathbf{W},\mathbf{M},\mathbf{T},\mathbf{P})$
设计动机：之前AFlow只搜索workflow，AgentSquare虽然引入组件但在固定workflow模板下搜索、且仍以prompt优化为主。本文的层次空间真正实现了workflow和组件的联合优化，搜索空间更具表达力
Value Model（性能预测模型）:
做什么：给定candidate agent和任务描述，预测其性能得分 $\hat{v} = f_\theta(\mathbf{A}, d)$
核心思路：基于7B预训练语言模型（Mistral-7B或Qwen2.5-7B）+ 轻量adapter，用MSE损失端到端微调。关键创新在数据集构建：先用 $t=2$ 的covering array确保所有成对组件交互至少出现一次（保证覆盖度），再用Balanced Bayesian Sampling同时探索高性能区域（UCB）和低性能区域（LCB），公式为 $a_{\text{UCB}}(\mathbf{A}) = \mu(\mathbf{A}) + \kappa \cdot \sigma(\mathbf{A})$ 和 $a_{\text{LCB}}(\mathbf{A}) = -\mu(\mathbf{A}) + \kappa \cdot \sigma(\mathbf{A})$，总共收集220个有标注样本
设计动机：GPT-4o做in-context预测虽然可行但成本高（每次搜索都要调用大模型），且精度不够（Spearman仅0.77 vs 本方法0.90）。蒸馏到7B模型后推理快、成本低，且因为structured agent表示的组合性质，7B模型能学到好的component→performance映射
不确定性引导的MCTS:
做什么：高效搜索最优agent设计
核心思路：
- Selection：采用soft mixed probability策略，结合实际性能 $s_i$ 和不确定性 $u_i$，公式 $P_{\text{mixed}}(i) = \lambda \cdot \frac{1}{n} + (1-\lambda) \cdot \frac{\exp(E(s_i, u_i))}{\sum_j \exp(E(s_j, u_j))}$，其中 $E(s_j, u_j) = \alpha((1-\beta) s_j + \beta u_j - s_{\max})$
- Expansion：从parent agent出发，依次执行三步操作：(1) Recombination——从组件池中替换一个子系统；(2) Mutation——LLM根据任务和历史性能生成新组件实现；(3) Refinement——基于失败案例微调prompt/temperature/控制流。每步都用value model评分筛选最佳candidate
- Evaluation：对最终candidate做真实评估，不确定性定义为 $u = |s_{\text{real}} - \hat{s}|$
- Backpropagation：向上传播真实分数和不确定性，更新visit count
设计动机：纯exploitation容易陷入局部最优，纯exploration浪费budget。不确定性机制让搜索既关注高性能区域，也关注预测不确定的区域（可能隐藏高性能candidate）

损失函数 / 训练策略¶

Value model用MSE损失训练：$\mathcal{L} = \frac{1}{N}\sum_i (v_i - f_\theta(\mathbf{A}_i, d_i))^2$
数据集220样本，8:1:1划分训练/验证/测试
搜索budget上限60个agent（与baseline公平对比）
3张A100 GPU训练value model

实验关键数据¶

主实验¶

在GPT-4o-mini上的7个benchmark结果（3次独立运行取平均）：

方法	ALFWorld	SciWorld	MATH	WebShop	M3Tool	Travel	PDDL	类型
COT	0.512	0.398	0.532	0.490	0.427	0.433	0.427	手工
FoA	0.587	0.427	0.556	0.509	0.488	0.474	0.472	手工
AgentSquare	0.701	0.475	0.556	0.520	0.561	0.553	0.577	搜索
AFlow	0.619	0.452	0.562	0.497	0.524	0.497	0.528	搜索
AgentSwift	0.806	0.509	0.628	0.562	0.634	0.573	0.614	搜索

AgentSwift在所有7个benchmark上全面超越手工设计和自动搜索baseline，平均提升8.34%。

消融实验¶

配置	关键指标	说明
AgentSwift (full)	0.806 (ALFWorld)	完整模型
w/o Uncertainty	性能曲线明显变平	搜索倾向exploit已知区域
w/o MCTS	性能曲线最平	缺乏层次化探索，变成局部搜索
Full evaluation (替代value model)	收敛最慢	预算大量浪费在低质量candidate上
GPT-4o few-shot预测	中间	比value model精度低

Value model预测质量对比（Spearman相关系数）：

方法	MSE	MAE	R²	Spearman
AgentSwift (Mistral)	0.006	0.053	0.807	0.903
AgentSwift (Qwen)	0.005	0.055	0.828	0.899
GPT-4o few-shot	0.016	0.089	0.479	0.765
GPT-4o zero-shot	0.068	0.207	-1.17	0.056

关键发现¶

MCTS + 不确定性引导是搜索效率的核心——去掉任一都导致搜索曲线显著变平
Value model用30个标注样本few-shot adaptation到新任务，MSE就接近oracle（全量训练）性能，说明agent设计的结构化表示具有很强的迁移性
发现的agent架构具有跨模型泛化性——用GPT-4o-mini搜到的agent直接在其他LLM上也能表现良好
超参数 $\alpha$, $\lambda$, $\beta$ 的敏感性分析显示方法很鲁棒（ALFWorld上变化范围0.768-0.813）

亮点与洞察¶

NAS→Agent Search的范式迁移非常巧妙：将NAS中的performance predictor思想迁移到agent设计搜索中，7B模型做surrogate evaluation比直接调GPT-4o预测更准且更便宜。这个思路可以推广到任何涉及expensive evaluation的搜索问题
Balanced Bayesian Sampling数据集构建：同时采样高性能和低性能区域的策略很聪明，保证value model既能识别好agent也能区分坏agent，比只采样高性能区域的数据集更有判别力
三级expansion操作（recombination→mutation→refinement）形成了从粗到细的搜索策略，recombination做大步跳跃、mutation做中等创新、refinement做细粒度调优，层次分明

局限性 / 可改进方向¶

搜索空间仍然有限：memory/tool/planning三个功能组件的定义比较固定，没有涵盖RAG、multi-agent协作、self-play等更复杂的agent capability
评估仅用GPT-4o-mini：主实验基于一个模型，虽然做了跨模型迁移实验，但搜索过程本身是否在不同backbone上都有效未充分验证
value model的220样本训练数据：对新任务需要few-shot adaptation，如果目标任务与训练任务差异很大（如跨模态），迁移效果可能受限
只考虑单agent设计：未涉及multi-agent系统的自动化设计，这是一个重要的扩展方向

评分¶

新颖性: ⭐⭐⭐⭐ 层次搜索空间+value model+MCTS的组合很完整，但各个组件都有先例（NAS predictor、MCTS in LLM reasoning等）
实验充分度: ⭐⭐⭐⭐⭐ 7个benchmark、多种baseline对比、详细消融、泛化分析、超参敏感性，非常完整
写作质量: ⭐⭐⭐⭐ 结构清晰，形式化定义完备，但部分细节（如组件池的具体实现）在附录中
价值: ⭐⭐⭐⭐ 为自动化agent设计提供了一个系统性框架，实际应用中能帮助快速发现好的agent architecture