A2Flow: Automating Agentic Workflow Generation via Self-Adaptive Abstraction Operators¶
会议: AAAI 2026
arXiv: 2511.20693
代码: https://github.com/pandawei-ele/A2FLOW
领域: LLM Agent
关键词: 工作流自动化, 抽象算子, MCTS, 算子记忆机制, 具身任务泛化
一句话总结¶
提出 A2Flow 框架,通过三阶段流水线(案例生成→功能聚类→深度提取)从专家数据中全自动提取可复用的抽象执行算子,替代人工预定义算子,并引入算子记忆机制累积中间输出辅助节点决策,在 8 个基准上整体超越 AFLOW 等 SOTA,资源消耗降低 37%。
研究背景与动机¶
- LLM Agent 工作流设计依赖人工:当前 LLM Agent 依赖人工精心设计的 agentic workflow(结构化 LLM 调用序列),设计和迭代成本高,严重制约可扩展性。
- 现有自动化方法仍需预定义算子:AFLOW 将工作流优化建模为基于 MCTS 的代码搜索问题,但核心构建块(Ensemble、Review、Revise 等算子)仍需人工针对每个任务手动设计。
- 预定义算子限制泛化能力:手工算子引入领域偏置,导致在开放世界任务(具身控制、WebShop 等)上迁移性差,且无法保证搜索空间的最优性。
- 后续工作继承同样局限:DebFlow 引入辩论和反思机制但沿用 AFLOW 的预定义算子,仍有冗余算子和额外开销;MermaidFlow 提出领域感知进化算子但初始化仍依赖预定义,对具身场景泛化不足。
- 算子间信息流不充分:AFLOW 的顺序执行设计中,每个算子 \(o_k\) 仅依赖前一步 \(o_{k-1}\) 的输出,缺乏全局上下文共享,限制了复杂任务中的推理质量。
- 核心动机:需要一种完全自动化的算子提取方法,从原始专家数据中自适应地发现紧凑、可泛化的执行算子,同时通过记忆机制弥补算子间信息传递的不足。
方法详解¶
整体框架¶
A2Flow 分为两大模块:Self-Adaptive Abstraction Operators(三阶段算子提取)和 Operators Memory Mechanism(算子记忆)。提取完成后,将自适应算子集注入 AFLOW 的 MCTS 搜索框架进行工作流优化。整个流程无需任何人工预定义算子。
阶段一:Case-based Initial Operator Generation¶
- 做什么:从验证集(20%专家数据)的每条样本中,利用 LLM 推理生成案例级别的初始算子集合 \(O^{(e)} = \{o_{i,j} = E(C_i, P_e, M)\}\)。
- 核心思路:为每条案例 \(C_i\) 设计提取 prompt \(P_e\),要求 LLM 将问题解决过程分解为可复用的执行单元(Python class 形式),每个算子是一个基本块——单入单出、无中间跳转。
- 设计动机:直接从实际任务示例中归纳算子,避免人工先验假设,保证算子与目标任务的语义适配性。
阶段二:Operator Clustering and Preliminary Abstraction¶
- 做什么:利用 LLM 对初始算子集 \(O^{(e)}\) 进行功能聚类,合并语义相似的算子,得到初步抽象算子集 \(O^{(a)} = \mathcal{C}(O^{(e)}, P_a, M)\)。
- 核心思路:设计聚类 prompt \(P_a\),要求 LLM 识别跨案例的功能重叠算子,剪枝非必要算子,确保算子名称简洁无冗余。
- 设计动机:初始算子数量大且重复多,直接参与搜索会导致搜索空间膨胀和效率低下,需要先聚合收敛。
阶段三:Deep Extraction for Abstract Execution Operators¶
- 做什么:通过多路径并行生成 + Long CoT 提示对聚类后的算子进一步深度抽象,得到最终任务感知的抽象执行算子 \(O^{(t)}\)。
- 核心思路:生成 \(m=6\) 条独立推理路径 \(\{\mathcal{P}_p\}_{p=1}^{6}\),每条路径经过三轮迭代精炼(初始生成 \(o_1\) → CoT 精炼 \(o_2\) → 二次 CoT 精炼 \(o_3\)),最终用 LLM 聚合函数 \(\mathcal{A}_t\) 跨路径融合为最终算子集。
- 设计动机:借鉴 self-consistency 的多路径投票思想,通过温度调控产生多样性候选,配合深度推理确保算子既紧凑又具泛化性(如最终提取出 Planner/Executor/Validator 三个通用算子)。
Reflection Mechanism¶
- 做什么:在每一步算子生成中,LLM 输出 Python 代码后由执行器做语法和可执行性校验,失败则触发 LLM 反思重生成。
- 核心思路:self-correction + error-feedback 闭环。
- 设计动机:代码形式的算子必须确保可执行,迭代纠错提高提取可靠性。
Operators Memory Mechanism¶
- 做什么:在工作流搜索的每个节点执行时,引入记忆空间 \(\mathcal{M}_k\) 存储所有历史算子输出,当前算子 \(o_k = f_k(\text{input}_k, P_k, \mathcal{M}_{k-1})\),执行后更新 \(\mathcal{M}_k = \mathcal{M}_{k-1} \cup \{o_k\}\)。
- 核心思路:打破 AFLOW 中算子只看前一步输出的限制,让每个算子都能访问完整的历史上下文。
- 设计动机:复杂任务中,后续步骤可能需要早期步骤的信息(而非仅前一步),全局记忆使算子的推理更准确、泛化更好。
自动化工作流优化¶
沿用 AFLOW 的 MCTS 搜索框架(初始化→选择→扩展→评估→回溯),但将自适应算子集 \(\{O^{(t)}\}\) 和算子记忆 \(\mathcal{M}\) 注入搜索过程。最终优化目标:\(W^* = \mathcal{S}(W_0, \{O^{(t)}\}, G, D_V, \mathcal{M})\),同时优化工作流结构和算子表示。
损失函数 / 训练策略¶
- 本工作不涉及传统梯度训练,优化通过 MCTS 搜索完成,评估函数 \(G\) 在验证集上多次执行候选工作流取平均性能。
- 算子提取阶段的"训练"体现为 prompt 工程 + LLM 推理的迭代精炼(三步 CoT 精炼 × 六路径并行 + 反思重生成)。
- 验证集 20% / 测试集 80%,随机种子固定为 42。
- 优化器使用 Claude-3.5-sonnet,执行器使用 GPT-4o-mini / GPT-4o / DeepSeek-v3,算子生成器使用 DeepSeek-v3。
实验关键数据¶
主实验:通用基准(GPT-4o-mini 作执行器)¶
| 方法 | HotpotQA | DROP | HumanEval | MBPP | GSM8K | MATH | 平均 |
|---|---|---|---|---|---|---|---|
| IO | 68.1 | 68.3 | 87.0 | 71.8 | 92.7 | 48.6 | 72.8 |
| CoT | 67.9 | 78.5 | 88.6 | 71.8 | 92.4 | 48.8 | 74.7 |
| CoT SC (5-shot) | 68.9 | 78.8 | 91.6 | 73.6 | 92.7 | 50.4 | 76.0 |
| MultiPersona | 69.2 | 74.4 | 89.3 | 73.6 | 92.8 | 50.8 | 75.1 |
| ADAS | 64.5 | 76.6 | 82.4 | 53.4 | 90.8 | 35.4 | 67.2 |
| AFLOW | 73.5 | 80.6 | 90.9 | 83.4 | 93.5 | 56.2 | 79.6 |
| A2Flow | 74.1 | 85.1 | 92.4 | 85.0 | 93.8 | 58.5 | 81.5 |
A2Flow 在 6 个基准中 5 个取得最优,平均超 AFLOW 1.9 个百分点;DROP 上提升 4.5%,MATH 上提升 4.1%。
具身 / 游戏基准(DeepSeek-v3 作执行器)¶
| 方法 | ALFWorld Seen | ALFWorld UnSeen | TextCraft | 平均 |
|---|---|---|---|---|
| ReAct | 22.0 | 22.9 | 33.0 | 25.9 |
| AFLOW | 17.1 | 26.6 | 53.0 | 32.2 |
| A2Flow | 25.0 | 31.3 | 59.0 | 38.4 |
在具身和游戏任务上平均提升 19.3%(vs AFLOW),验证了自适应算子在开放世界任务上的泛化优势。
消融实验(MATH 基准)¶
| 变体 | Score | ΔScore (%) |
|---|---|---|
| 无 Abstraction Operators 且无 Memory | 56.2 | — |
| 无 Operators Memory | 53.9 | -4.1 |
| 完整 A2Flow | 58.5 | +4.1 |
| 无 Initial Operators | 49.6 | -11.7 |
| 无 Operator Clustering | 54.5 | -3.0 |
| 无 Deep Extraction | 51.6 | -8.2 |
初始算子生成贡献最大(-11.7%),深度提取次之(-8.2%),记忆机制贡献 4.1%。
关键发现¶
- 自适应算子全面优于预定义算子:完全自动提取的算子在 8 个基准上整体超越人工设计的算子(AFLOW),且无需领域专家知识。
- 对开放世界任务泛化显著:在 ALFWorld 和 TextCraft 等之前 AFLOW/ReAct 泛化较差的具身/游戏任务上,A2Flow 带来 19.3% 的提升,自适应算子能从少量训练数据中发现任务适配的工作流结构。
- Pareto 前沿优势:成本分析表明 A2Flow 发现的工作流能让弱模型在性价比前沿上超越强模型,资源消耗降低 37%。
- 三阶段缺一不可:消融显示初始生成(-11.7%)、深度提取(-8.2%)、聚类(-3.0%)、记忆(-4.1%)各有不可替代的贡献。
- 代码执行任务上提升有限:HumanEval/MBPP 上提升较小,因为预定义算子已包含 Python 解释器调用这一强先验。
亮点与洞察¶
- "算子也可以被自动搜索":A2Flow 将自动化的粒度从"工作流结构"推进到"算子本身",实现了更彻底的自动化——不仅自动搜索最优工作流拓扑,连构建块也是自动发现的。
- 多路径 CoT + Self-Consistency 的妙用:6 条独立推理路径 × 3 轮迭代精炼,再跨路径聚合,本质上是在算子抽象空间做了类似 ensemble 的操作,提高了提取的鲁棒性。
- 记忆机制虽简单但有效:仅用一个集合累积历史输出就带来 4.1% 提升,说明 AFLOW 中只传前一步输出确实是信息瓶颈。
- 案例研究直观:ALFWorld 的案例清晰展示了从原始任务样本到 ObserveEnvironment/CreatePlan → 聚类 → Planner/Executor/Validator 的完整提取链路。
局限性 / 可改进方向¶
- 算子提取本身依赖强 LLM:提取阶段使用 DeepSeek-v3,聚合和精炼质量受 LLM 能力限制,对于更复杂的开放域可能需要更强的推理模型。
- 搜索框架仍沿用 AFLOW 的 MCTS:创新集中在算子提取,搜索策略本身未改进,可能存在更高效的搜索算法。
- 记忆机制过于简单:简单的集合累积不区分信息重要性,随步数增加 context window 压力增大,缺乏遗忘/压缩机制。
- 验证集仅 20%:对于样本量小的任务(如 ALFWorld 仅 33 条验证样本),提取的算子可能过拟合。
- 跨模态/跨任务迁移未验证:从一个任务提取的算子能否直接迁移到另一任务未被探索。
- 固定 6 路径 × 3 轮:多路径数量和迭代轮次是否最优未做敏感性分析。
相关工作与启发¶
- AFLOW(Zhang et al., 2025):A2Flow 的直接前身,用 MCTS 搜索代码表示的工作流,但依赖人工预定义算子——A2Flow 的核心贡献正是解决了这一限制。
- DebFlow(Su et al., 2025):在 AFLOW 基础上加入辩论和反思,但未解决算子预定义问题。
- MermaidFlow(Zheng et al., 2025):提出领域感知进化算子,但初始化仍需预定义,具身场景泛化不足。
- ADAS(Hu et al., 2024):代码形式的工作流设计,但线性启发式搜索效率低。
- DSPy(Khattab et al., 2024):将 LLM 管道形式化为可学习文本变换图,免手工 prompt 模板,但未涉及算子级自动化。
- Self-Consistency(Wang et al., 2022):多路径采样 + 投票思想被 A2Flow 的深度提取阶段借鉴。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将自动化从工作流结构扩展到算子提取是有意义的推进,但三阶段流水线中各步骤(聚类、CoT 精炼、self-consistency)均为已有技术的组合
- 实验充分度: ⭐⭐⭐⭐ 覆盖 5 个领域 8 个基准,含消融和成本分析;但具身任务仅两个基准,缺少与 MermaidFlow/DebFlow 的对比
- 写作质量: ⭐⭐⭐⭐ 框架图清晰、案例研究直观,但 Related Work 部分重复叙述较多,公式符号偶有不一致
- 价值: ⭐⭐⭐⭐⭐ "算子无需手工定义"对 Agent 工作流自动化领域有重要推动意义,特别是对开放世界任务的泛化改进很有实用价值