跳转至

CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution

会议: ACL 2026
arXiv: 2604.15840
代码: https://github.com/AMAP-ML/CoEvolve
领域: LLM Agent
关键词: 智能体训练、数据合成、共进化、遗忘信号、强化学习

一句话总结

CoEvolve 提出智能体-数据共进化框架,通过从训练轨迹中提取遗忘/边界/稀有三类弱点信号,引导 LLM 做针对性环境再探索和任务合成,使训练数据分布随智能体能力动态适应,在 AppWorld 和 BFCL 上分别带来 19-23% 的绝对提升。

研究背景与动机

领域现状:LLM Agent 通常通过 RL 在交互环境中训练,但训练数据来源是核心瓶颈——要么依赖人工专家轨迹(昂贵、覆盖有限),要么用 LLM 合成静态数据(无反馈、无法适应智能体演化)。

现有痛点:(1) 人工专家轨迹是"静态快照",无法覆盖真实世界的长尾变体(如按钮标签从"Book Now"变为"Reserve Now"就会失败);(2) LLM 合成数据虽减少了人工依赖,但基于随机探索,环境覆盖浅且不完整;(3) 更关键的是,合成数据是静态的,无法随智能体能力演化而调整——智能体已掌握的技能被过度训练,而弱点被忽视。

核心矛盾:智能体的能力在持续变化,但训练数据分布是固定的——缺乏闭环反馈使得训练效率低下且无法持续改进。

本文目标:设计一个无需人工监督的框架,让训练数据分布随智能体的演化弱点动态调整,实现"智能体改进→发现新弱点→合成针对性数据→智能体再改进"的闭环。

切入角度:利用训练过程中的轨迹回放信号(遗忘、边界、稀有模式)来识别智能体的具体弱点,以此为条件引导 LLM 做定向环境探索。

核心 idea:从 RL 训练的 rollout 轨迹中提取弱点信号,条件化地引导 LLM 在环境中再探索,合成针对弱点的新任务,更新训练分布,形成智能体-数据共进化闭环。

方法详解

整体框架

三阶段闭环:(1) 训练+信号提取:用 GRPO 训练智能体,从 rollout 轨迹中提取遗忘/边界/稀有三类信号;(2) 信号引导的再探索:将信号轨迹提供给 LLM 做反思,生成结构化探索上下文,引导 LLM 在环境中发现新的交互模式;(3) 任务合成与验证:将发现的新交互抽象为可执行任务,通过环境验证后加入训练集,更新数据分布。

关键设计

  1. 三类弱点信号提取:

    • 功能:从训练轨迹中系统性地识别智能体的具体弱点
    • 核心思路:(1) 遗忘信号:滑动窗口检测——若最近 W 次中有成功但当前失败(\(\exists s_i \geq 0.5\)\(s_{\text{now}} < 0.5\)),说明智能体"忘记"了之前学到的能力;(2) 边界信号:单次训练中同一任务的 K 条轨迹同时包含成功和失败,说明智能体在该任务的决策边界上,行为不稳定;(3) 稀有信号:动作模式频率低于阈值(\(c_p/N < \theta/100\))但出现次数 >0,说明环境中存在系统性未充分探索的交互模式
    • 设计动机:三类信号捕获互补的弱点:遗忘=能力退化,边界=不稳定,稀有=探索不足。用信号驱动数据合成比随机生成更高效
  2. 信号引导的环境再探索:

    • 功能:利用弱点信号引导 LLM 做针对性的环境探索
    • 核心思路:将信号标注的失败轨迹(含任务描述、动作序列、环境反馈)提供给 LLM,要求其反思失败原因并生成结构化探索上下文(描述在哪里、如何失败/不稳定)。然后用探索上下文条件化 LLM 在真实环境中交互,发现新的交互模式和任务变体
    • 设计动机:与随机探索不同,信号条件化的探索专注于智能体当前的弱点区域,大幅提升探索效率
  3. 任务合成与环境验证:

    • 功能:将探索发现的交互转化为可执行的训练任务
    • 核心思路:将 LLM 再探索中发现的新交互模式抽象为任务描述,在环境中执行验证(确保可执行性),通过验证的任务加入训练集 \(\mathcal{D}_{t+1}\)。整个过程无需人工监督——探索、合成、验证全自动
    • 设计动机:环境验证确保合成任务的可执行性(避免幻觉任务),任务抽象确保可复用性

损失函数 / 训练策略

使用 GRPO 训练智能体,对每个任务采样 K 条轨迹,按组内相对优势计算策略梯度,KL 正则化防止偏离参考策略。信号提取、再探索、任务合成在每个训练迭代后执行。

实验关键数据

主实验

模型 AppWorld-TestN TGC AppWorld-TestC TGC BFCL Multi-turn 平均提升
Qwen2.5-7B + CoEvolve 27.98 (+26.79) 8.39 (+7.67) 61.50 (+48.00) +19.43%
Qwen3-4B + CoEvolve 35.71 (+19.04) 17.03 (+9.12) 63.00 (+36.50) +15.58%
Qwen3-30B-A3B + CoEvolve 54.76 (+23.21) 31.65 (+11.75) 63.00 (+19.50) +18.14%

消融实验

配置 关键指标 说明
仅遗忘信号 有效但不完整 只捕获能力退化
仅边界信号 有效但不完整 只捕获不稳定行为
仅稀有信号 有效但不完整 只捕获探索不足
三类信号联合 最佳 互补弱点全面覆盖
无环境验证 显著下降 幻觉任务引入噪声

关键发现

  • CoEvolve 使 Qwen2.5-7B 从几乎不可用(1.19%)变为中等水平(27.98%),提升幅度惊人
  • 在 BFCL 上 Qwen2.5-7B+CoEvolve 达 61.50%,甚至超越 GPT-4(54.00%),说明数据质量可以弥补模型规模差距
  • Qwen3-30B-A3B+CoEvolve 在 AppWorld-TestN 上达 54.76%,接近 Claude-Sonnet-4.5(73.81%)
  • 三类信号互补——单独使用任何一类都不如联合使用

亮点与洞察

  • "遗忘信号"作为数据选择标准是本文最巧妙的设计:借鉴课程学习中的遗忘事件概念,将其用于引导数据合成而非数据选择。这个思路可迁移到任何需要动态数据分布调整的训练场景
  • 闭环设计(训练→发现弱点→合成数据→再训练)比单纯的数据增强更本质——它让训练分布和模型能力共同演化,是一种自适应课程学习
  • 在 BFCL 上 7B 模型超越 GPT-4 的结果极为亮眼,有力证明了"针对性数据"比"大量随机数据"更有价值

局限与展望

  • 需要真实环境交互做验证,限于有可执行环境的场景(如 API 调用、Web 导航),难以推广到开放域任务
  • 信号提取的超参数(滑动窗口大小 W、稀有阈值 θ)可能需要针对不同环境调整
  • 再探索阶段依赖强 LLM(用于反思和探索),这本身引入额外计算成本
  • 未与其他自适应课程学习方法做直接对比

相关工作与启发

  • vs 静态合成数据 (Ye et al., 2024; Ding et al., 2024): 后者一次性离线生成数据,CoEvolve 通过闭环反馈持续演化数据分布
  • vs Self-Play/Self-Improve: 后者通常在固定查询集上做轨迹优化,CoEvolve 发现全新的任务和环境状态,不限于改写已有数据

评分

  • 新颖性: ⭐⭐⭐⭐ 智能体-数据共进化的闭环框架是新颖的范式,遗忘信号用于数据合成的想法巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多模型(7B/4B/30B)、多基准(AppWorld/BFCL)、详细消融、与闭源模型对比
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法流程图直观,但信号提取公式可精简

相关论文