A2Flow: Automating Agentic Workflow Generation via Self-Adaptive Abstraction Operators¶

会议: AAAI 2026
arXiv: 2511.20693
代码: https://github.com/pandawei-ele/A2FLOW
领域: LLM Agent
关键词: 工作流自动化, 抽象算子, MCTS, 算子记忆机制, 具身任务泛化

一句话总结¶

提出 A2Flow 框架，通过三阶段流水线（案例生成→功能聚类→深度提取）从专家数据中全自动提取可复用的抽象执行算子，替代人工预定义算子，并引入算子记忆机制累积中间输出辅助节点决策，在 8 个基准上整体超越 AFLOW 等 SOTA，资源消耗降低 37%。

研究背景与动机¶

LLM Agent 工作流设计依赖人工：当前 LLM Agent 依赖人工精心设计的 agentic workflow（结构化 LLM 调用序列），设计和迭代成本高，严重制约可扩展性。
现有自动化方法仍需预定义算子：AFLOW 将工作流优化建模为基于 MCTS 的代码搜索问题，但核心构建块（Ensemble、Review、Revise 等算子）仍需人工针对每个任务手动设计。
预定义算子限制泛化能力：手工算子引入领域偏置，导致在开放世界任务（具身控制、WebShop 等）上迁移性差，且无法保证搜索空间的最优性。
后续工作继承同样局限：DebFlow 引入辩论和反思机制但沿用 AFLOW 的预定义算子，仍有冗余算子和额外开销；MermaidFlow 提出领域感知进化算子但初始化仍依赖预定义，对具身场景泛化不足。
算子间信息流不充分：AFLOW 的顺序执行设计中，每个算子 \(o_k\) 仅依赖前一步 \(o_{k-1}\) 的输出，缺乏全局上下文共享，限制了复杂任务中的推理质量。
核心动机：需要一种完全自动化的算子提取方法，从原始专家数据中自适应地发现紧凑、可泛化的执行算子，同时通过记忆机制弥补算子间信息传递的不足。

方法详解¶

整体框架¶

A2Flow 分为两大模块：Self-Adaptive Abstraction Operators（三阶段算子提取）和 Operators Memory Mechanism（算子记忆）。提取完成后，将自适应算子集注入 AFLOW 的 MCTS 搜索框架进行工作流优化。整个流程无需任何人工预定义算子。

阶段一：Case-based Initial Operator Generation¶

做什么：从验证集（20%专家数据）的每条样本中，利用 LLM 推理生成案例级别的初始算子集合 \(O^{(e)} = \{o_{i,j} = E(C_i, P_e, M)\}\)。
核心思路：为每条案例 \(C_i\) 设计提取 prompt \(P_e\)，要求 LLM 将问题解决过程分解为可复用的执行单元（Python class 形式），每个算子是一个基本块——单入单出、无中间跳转。
设计动机：直接从实际任务示例中归纳算子，避免人工先验假设，保证算子与目标任务的语义适配性。

阶段二：Operator Clustering and Preliminary Abstraction¶

做什么：利用 LLM 对初始算子集 \(O^{(e)}\) 进行功能聚类，合并语义相似的算子，得到初步抽象算子集 \(O^{(a)} = \mathcal{C}(O^{(e)}, P_a, M)\)。
核心思路：设计聚类 prompt \(P_a\)，要求 LLM 识别跨案例的功能重叠算子，剪枝非必要算子，确保算子名称简洁无冗余。
设计动机：初始算子数量大且重复多，直接参与搜索会导致搜索空间膨胀和效率低下，需要先聚合收敛。

阶段三：Deep Extraction for Abstract Execution Operators¶

做什么：通过多路径并行生成 + Long CoT 提示对聚类后的算子进一步深度抽象，得到最终任务感知的抽象执行算子 \(O^{(t)}\)。
核心思路：生成 \(m=6\) 条独立推理路径 \(\{\mathcal{P}_p\}_{p=1}^{6}\)，每条路径经过三轮迭代精炼（初始生成 \(o_1\) → CoT 精炼 \(o_2\) → 二次 CoT 精炼 \(o_3\)），最终用 LLM 聚合函数 \(\mathcal{A}_t\) 跨路径融合为最终算子集。
设计动机：借鉴 self-consistency 的多路径投票思想，通过温度调控产生多样性候选，配合深度推理确保算子既紧凑又具泛化性（如最终提取出 Planner/Executor/Validator 三个通用算子）。

Reflection Mechanism¶

做什么：在每一步算子生成中，LLM 输出 Python 代码后由执行器做语法和可执行性校验，失败则触发 LLM 反思重生成。
核心思路：self-correction + error-feedback 闭环。
设计动机：代码形式的算子必须确保可执行，迭代纠错提高提取可靠性。

Operators Memory Mechanism¶

做什么：在工作流搜索的每个节点执行时，引入记忆空间 \(\mathcal{M}_k\) 存储所有历史算子输出，当前算子 \(o_k = f_k(\text{input}_k, P_k, \mathcal{M}_{k-1})\)，执行后更新 \(\mathcal{M}_k = \mathcal{M}_{k-1} \cup \{o_k\}\)。
核心思路：打破 AFLOW 中算子只看前一步输出的限制，让每个算子都能访问完整的历史上下文。
设计动机：复杂任务中，后续步骤可能需要早期步骤的信息（而非仅前一步），全局记忆使算子的推理更准确、泛化更好。

自动化工作流优化¶

沿用 AFLOW 的 MCTS 搜索框架（初始化→选择→扩展→评估→回溯），但将自适应算子集 \(\{O^{(t)}\}\) 和算子记忆 \(\mathcal{M}\) 注入搜索过程。最终优化目标：\(W^* = \mathcal{S}(W_0, \{O^{(t)}\}, G, D_V, \mathcal{M})\)，同时优化工作流结构和算子表示。

损失函数 / 训练策略¶

本工作不涉及传统梯度训练，优化通过 MCTS 搜索完成，评估函数 \(G\) 在验证集上多次执行候选工作流取平均性能。
算子提取阶段的"训练"体现为 prompt 工程 + LLM 推理的迭代精炼（三步 CoT 精炼 × 六路径并行 + 反思重生成）。
验证集 20% / 测试集 80%，随机种子固定为 42。
优化器使用 Claude-3.5-sonnet，执行器使用 GPT-4o-mini / GPT-4o / DeepSeek-v3，算子生成器使用 DeepSeek-v3。

实验关键数据¶

主实验：通用基准（GPT-4o-mini 作执行器）¶

方法	HotpotQA	DROP	HumanEval	MBPP	GSM8K	MATH	平均
IO	68.1	68.3	87.0	71.8	92.7	48.6	72.8
CoT	67.9	78.5	88.6	71.8	92.4	48.8	74.7
CoT SC (5-shot)	68.9	78.8	91.6	73.6	92.7	50.4	76.0
MultiPersona	69.2	74.4	89.3	73.6	92.8	50.8	75.1
ADAS	64.5	76.6	82.4	53.4	90.8	35.4	67.2
AFLOW	73.5	80.6	90.9	83.4	93.5	56.2	79.6
A2Flow	74.1	85.1	92.4	85.0	93.8	58.5	81.5

A2Flow 在 6 个基准中 5 个取得最优，平均超 AFLOW 1.9 个百分点；DROP 上提升 4.5%，MATH 上提升 4.1%。

具身 / 游戏基准（DeepSeek-v3 作执行器）¶

方法	ALFWorld Seen	ALFWorld UnSeen	TextCraft	平均
ReAct	22.0	22.9	33.0	25.9
AFLOW	17.1	26.6	53.0	32.2
A2Flow	25.0	31.3	59.0	38.4

在具身和游戏任务上平均提升 19.3%（vs AFLOW），验证了自适应算子在开放世界任务上的泛化优势。

消融实验（MATH 基准）¶

变体	Score	ΔScore (%)
无 Abstraction Operators 且无 Memory	56.2	—
无 Operators Memory	53.9	-4.1
完整 A2Flow	58.5	+4.1
无 Initial Operators	49.6	-11.7
无 Operator Clustering	54.5	-3.0
无 Deep Extraction	51.6	-8.2

初始算子生成贡献最大（-11.7%），深度提取次之（-8.2%），记忆机制贡献 4.1%。

关键发现¶

自适应算子全面优于预定义算子：完全自动提取的算子在 8 个基准上整体超越人工设计的算子（AFLOW），且无需领域专家知识。
对开放世界任务泛化显著：在 ALFWorld 和 TextCraft 等之前 AFLOW/ReAct 泛化较差的具身/游戏任务上，A2Flow 带来 19.3% 的提升，自适应算子能从少量训练数据中发现任务适配的工作流结构。
Pareto 前沿优势：成本分析表明 A2Flow 发现的工作流能让弱模型在性价比前沿上超越强模型，资源消耗降低 37%。
三阶段缺一不可：消融显示初始生成（-11.7%）、深度提取（-8.2%）、聚类（-3.0%）、记忆（-4.1%）各有不可替代的贡献。
代码执行任务上提升有限：HumanEval/MBPP 上提升较小，因为预定义算子已包含 Python 解释器调用这一强先验。

亮点与洞察¶

"算子也可以被自动搜索"：A2Flow 将自动化的粒度从"工作流结构"推进到"算子本身"，实现了更彻底的自动化——不仅自动搜索最优工作流拓扑，连构建块也是自动发现的。
多路径 CoT + Self-Consistency 的妙用：6 条独立推理路径 × 3 轮迭代精炼，再跨路径聚合，本质上是在算子抽象空间做了类似 ensemble 的操作，提高了提取的鲁棒性。
记忆机制虽简单但有效：仅用一个集合累积历史输出就带来 4.1% 提升，说明 AFLOW 中只传前一步输出确实是信息瓶颈。
案例研究直观：ALFWorld 的案例清晰展示了从原始任务样本到 ObserveEnvironment/CreatePlan → 聚类 → Planner/Executor/Validator 的完整提取链路。

局限性 / 可改进方向¶

算子提取本身依赖强 LLM：提取阶段使用 DeepSeek-v3，聚合和精炼质量受 LLM 能力限制，对于更复杂的开放域可能需要更强的推理模型。
搜索框架仍沿用 AFLOW 的 MCTS：创新集中在算子提取，搜索策略本身未改进，可能存在更高效的搜索算法。
记忆机制过于简单：简单的集合累积不区分信息重要性，随步数增加 context window 压力增大，缺乏遗忘/压缩机制。
验证集仅 20%：对于样本量小的任务（如 ALFWorld 仅 33 条验证样本），提取的算子可能过拟合。
跨模态/跨任务迁移未验证：从一个任务提取的算子能否直接迁移到另一任务未被探索。
固定 6 路径 × 3 轮：多路径数量和迭代轮次是否最优未做敏感性分析。

评分¶

新颖性: ⭐⭐⭐⭐ 将自动化从工作流结构扩展到算子提取是有意义的推进，但三阶段流水线中各步骤（聚类、CoT 精炼、self-consistency）均为已有技术的组合
实验充分度: ⭐⭐⭐⭐ 覆盖 5 个领域 8 个基准，含消融和成本分析；但具身任务仅两个基准，缺少与 MermaidFlow/DebFlow 的对比
写作质量: ⭐⭐⭐⭐ 框架图清晰、案例研究直观，但 Related Work 部分重复叙述较多，公式符号偶有不一致
价值: ⭐⭐⭐⭐⭐ "算子无需手工定义"对 Agent 工作流自动化领域有重要推动意义，特别是对开放世界任务的泛化改进很有实用价值