CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution¶
会议: ACL 2026
arXiv: 2604.15840
代码: https://github.com/AMAP-ML/CoEvolve
领域: LLM Agent
关键词: 智能体训练、数据合成、共进化、遗忘信号、强化学习
一句话总结¶
CoEvolve 提出智能体-数据共进化框架,通过从训练轨迹中提取遗忘/边界/稀有三类弱点信号,引导 LLM 做针对性环境再探索和任务合成,使训练数据分布随智能体能力动态适应,在 AppWorld 和 BFCL 上分别带来 19-23% 的绝对提升。
研究背景与动机¶
领域现状:LLM Agent 通常通过 RL 在交互环境中训练,但训练数据来源是核心瓶颈——要么依赖人工专家轨迹(昂贵、覆盖有限),要么用 LLM 合成静态数据(无反馈、无法适应智能体演化)。
现有痛点:(1) 人工专家轨迹是"静态快照",无法覆盖真实世界的长尾变体(如按钮标签从"Book Now"变为"Reserve Now"就会失败);(2) LLM 合成数据虽减少了人工依赖,但基于随机探索,环境覆盖浅且不完整;(3) 更关键的是,合成数据是静态的,无法随智能体能力演化而调整——智能体已掌握的技能被过度训练,而弱点被忽视。
核心矛盾:智能体的能力在持续变化,但训练数据分布是固定的——缺乏闭环反馈使得训练效率低下且无法持续改进。
本文目标:设计一个无需人工监督的框架,让训练数据分布随智能体的演化弱点动态调整,实现"智能体改进→发现新弱点→合成针对性数据→智能体再改进"的闭环。
切入角度:利用训练过程中的轨迹回放信号(遗忘、边界、稀有模式)来识别智能体的具体弱点,以此为条件引导 LLM 做定向环境探索。
核心 idea:从 RL 训练的 rollout 轨迹中提取弱点信号,条件化地引导 LLM 在环境中再探索,合成针对弱点的新任务,更新训练分布,形成智能体-数据共进化闭环。
方法详解¶
整体框架¶
三阶段闭环:(1) 训练+信号提取:用 GRPO 训练智能体,从 rollout 轨迹中提取遗忘/边界/稀有三类信号;(2) 信号引导的再探索:将信号轨迹提供给 LLM 做反思,生成结构化探索上下文,引导 LLM 在环境中发现新的交互模式;(3) 任务合成与验证:将发现的新交互抽象为可执行任务,通过环境验证后加入训练集,更新数据分布。
关键设计¶
-
三类弱点信号提取:
- 功能:从训练轨迹中系统性地识别智能体的具体弱点
- 核心思路:(1) 遗忘信号:滑动窗口检测——若最近 W 次中有成功但当前失败(\(\exists s_i \geq 0.5\) 且 \(s_{\text{now}} < 0.5\)),说明智能体"忘记"了之前学到的能力;(2) 边界信号:单次训练中同一任务的 K 条轨迹同时包含成功和失败,说明智能体在该任务的决策边界上,行为不稳定;(3) 稀有信号:动作模式频率低于阈值(\(c_p/N < \theta/100\))但出现次数 >0,说明环境中存在系统性未充分探索的交互模式
- 设计动机:三类信号捕获互补的弱点:遗忘=能力退化,边界=不稳定,稀有=探索不足。用信号驱动数据合成比随机生成更高效
-
信号引导的环境再探索:
- 功能:利用弱点信号引导 LLM 做针对性的环境探索
- 核心思路:将信号标注的失败轨迹(含任务描述、动作序列、环境反馈)提供给 LLM,要求其反思失败原因并生成结构化探索上下文(描述在哪里、如何失败/不稳定)。然后用探索上下文条件化 LLM 在真实环境中交互,发现新的交互模式和任务变体
- 设计动机:与随机探索不同,信号条件化的探索专注于智能体当前的弱点区域,大幅提升探索效率
-
任务合成与环境验证:
- 功能:将探索发现的交互转化为可执行的训练任务
- 核心思路:将 LLM 再探索中发现的新交互模式抽象为任务描述,在环境中执行验证(确保可执行性),通过验证的任务加入训练集 \(\mathcal{D}_{t+1}\)。整个过程无需人工监督——探索、合成、验证全自动
- 设计动机:环境验证确保合成任务的可执行性(避免幻觉任务),任务抽象确保可复用性
损失函数 / 训练策略¶
使用 GRPO 训练智能体,对每个任务采样 K 条轨迹,按组内相对优势计算策略梯度,KL 正则化防止偏离参考策略。信号提取、再探索、任务合成在每个训练迭代后执行。
实验关键数据¶
主实验¶
| 模型 | AppWorld-TestN TGC | AppWorld-TestC TGC | BFCL Multi-turn | 平均提升 |
|---|---|---|---|---|
| Qwen2.5-7B + CoEvolve | 27.98 (+26.79) | 8.39 (+7.67) | 61.50 (+48.00) | +19.43% |
| Qwen3-4B + CoEvolve | 35.71 (+19.04) | 17.03 (+9.12) | 63.00 (+36.50) | +15.58% |
| Qwen3-30B-A3B + CoEvolve | 54.76 (+23.21) | 31.65 (+11.75) | 63.00 (+19.50) | +18.14% |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅遗忘信号 | 有效但不完整 | 只捕获能力退化 |
| 仅边界信号 | 有效但不完整 | 只捕获不稳定行为 |
| 仅稀有信号 | 有效但不完整 | 只捕获探索不足 |
| 三类信号联合 | 最佳 | 互补弱点全面覆盖 |
| 无环境验证 | 显著下降 | 幻觉任务引入噪声 |
关键发现¶
- CoEvolve 使 Qwen2.5-7B 从几乎不可用(1.19%)变为中等水平(27.98%),提升幅度惊人
- 在 BFCL 上 Qwen2.5-7B+CoEvolve 达 61.50%,甚至超越 GPT-4(54.00%),说明数据质量可以弥补模型规模差距
- Qwen3-30B-A3B+CoEvolve 在 AppWorld-TestN 上达 54.76%,接近 Claude-Sonnet-4.5(73.81%)
- 三类信号互补——单独使用任何一类都不如联合使用
亮点与洞察¶
- "遗忘信号"作为数据选择标准是本文最巧妙的设计:借鉴课程学习中的遗忘事件概念,将其用于引导数据合成而非数据选择。这个思路可迁移到任何需要动态数据分布调整的训练场景
- 闭环设计(训练→发现弱点→合成数据→再训练)比单纯的数据增强更本质——它让训练分布和模型能力共同演化,是一种自适应课程学习
- 在 BFCL 上 7B 模型超越 GPT-4 的结果极为亮眼,有力证明了"针对性数据"比"大量随机数据"更有价值
局限与展望¶
- 需要真实环境交互做验证,限于有可执行环境的场景(如 API 调用、Web 导航),难以推广到开放域任务
- 信号提取的超参数(滑动窗口大小 W、稀有阈值 θ)可能需要针对不同环境调整
- 再探索阶段依赖强 LLM(用于反思和探索),这本身引入额外计算成本
- 未与其他自适应课程学习方法做直接对比
相关工作与启发¶
- vs 静态合成数据 (Ye et al., 2024; Ding et al., 2024): 后者一次性离线生成数据,CoEvolve 通过闭环反馈持续演化数据分布
- vs Self-Play/Self-Improve: 后者通常在固定查询集上做轨迹优化,CoEvolve 发现全新的任务和环境状态,不限于改写已有数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 智能体-数据共进化的闭环框架是新颖的范式,遗忘信号用于数据合成的想法巧妙
- 实验充分度: ⭐⭐⭐⭐ 多模型(7B/4B/30B)、多基准(AppWorld/BFCL)、详细消融、与闭源模型对比
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法流程图直观,但信号提取公式可精简
相关论文¶
- [ACL 2026] ZARA: Training-Free Motion Time-Series Reasoning via Evidence-Grounded LLM Agents
- [ICLR 2026] Efficient Agent Training for Computer Use
- [NeurIPS 2025] MAT-Agent: Adaptive Multi-Agent Training Optimization
- [NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training
- [AAAI 2026] Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents