CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution¶

会议: ACL 2026
arXiv: 2604.15840
代码: https://github.com/AMAP-ML/CoEvolve
领域: LLM Agent
关键词: 智能体训练、数据合成、共进化、遗忘信号、强化学习

一句话总结¶

CoEvolve 提出智能体-数据共进化框架，通过从训练轨迹中提取遗忘/边界/稀有三类弱点信号，引导 LLM 做针对性环境再探索和任务合成，使训练数据分布随智能体能力动态适应，在 AppWorld 和 BFCL 上分别带来 19-23% 的绝对提升。

研究背景与动机¶

领域现状：LLM Agent 通常通过 RL 在交互环境中训练，但训练数据来源是核心瓶颈——要么依赖人工专家轨迹（昂贵、覆盖有限），要么用 LLM 合成静态数据（无反馈、无法适应智能体演化）。

现有痛点：(1) 人工专家轨迹是"静态快照"，无法覆盖真实世界的长尾变体（如按钮标签从"Book Now"变为"Reserve Now"就会失败）；(2) LLM 合成数据虽减少了人工依赖，但基于随机探索，环境覆盖浅且不完整；(3) 更关键的是，合成数据是静态的，无法随智能体能力演化而调整——智能体已掌握的技能被过度训练，而弱点被忽视。

核心矛盾：智能体的能力在持续变化，但训练数据分布是固定的——缺乏闭环反馈使得训练效率低下且无法持续改进。

本文目标：设计一个无需人工监督的框架，让训练数据分布随智能体的演化弱点动态调整，实现"智能体改进→发现新弱点→合成针对性数据→智能体再改进"的闭环。

切入角度：利用训练过程中的轨迹回放信号（遗忘、边界、稀有模式）来识别智能体的具体弱点，以此为条件引导 LLM 做定向环境探索。

核心 idea：从 RL 训练的 rollout 轨迹中提取弱点信号，条件化地引导 LLM 在环境中再探索，合成针对弱点的新任务，更新训练分布，形成智能体-数据共进化闭环。

方法详解¶

整体框架¶

三阶段闭环：(1) 训练+信号提取：用 GRPO 训练智能体，从 rollout 轨迹中提取遗忘/边界/稀有三类信号；(2) 信号引导的再探索：将信号轨迹提供给 LLM 做反思，生成结构化探索上下文，引导 LLM 在环境中发现新的交互模式；(3) 任务合成与验证：将发现的新交互抽象为可执行任务，通过环境验证后加入训练集，更新数据分布。

关键设计¶

三类弱点信号提取:
- 功能：从训练轨迹中系统性地识别智能体的具体弱点
- 核心思路：(1) 遗忘信号：滑动窗口检测——若最近 W 次中有成功但当前失败（\(\exists s_i \geq 0.5\) 且 \(s_{\text{now}} < 0.5\)），说明智能体"忘记"了之前学到的能力；(2) 边界信号：单次训练中同一任务的 K 条轨迹同时包含成功和失败，说明智能体在该任务的决策边界上，行为不稳定；(3) 稀有信号：动作模式频率低于阈值（\(c_p/N < \theta/100\)）但出现次数 >0，说明环境中存在系统性未充分探索的交互模式
- 设计动机：三类信号捕获互补的弱点：遗忘=能力退化，边界=不稳定，稀有=探索不足。用信号驱动数据合成比随机生成更高效
信号引导的环境再探索:
- 功能：利用弱点信号引导 LLM 做针对性的环境探索
- 核心思路：将信号标注的失败轨迹（含任务描述、动作序列、环境反馈）提供给 LLM，要求其反思失败原因并生成结构化探索上下文（描述在哪里、如何失败/不稳定）。然后用探索上下文条件化 LLM 在真实环境中交互，发现新的交互模式和任务变体
- 设计动机：与随机探索不同，信号条件化的探索专注于智能体当前的弱点区域，大幅提升探索效率
任务合成与环境验证:
- 功能：将探索发现的交互转化为可执行的训练任务
- 核心思路：将 LLM 再探索中发现的新交互模式抽象为任务描述，在环境中执行验证（确保可执行性），通过验证的任务加入训练集 \(\mathcal{D}_{t+1}\)。整个过程无需人工监督——探索、合成、验证全自动
- 设计动机：环境验证确保合成任务的可执行性（避免幻觉任务），任务抽象确保可复用性

损失函数 / 训练策略¶

使用 GRPO 训练智能体，对每个任务采样 K 条轨迹，按组内相对优势计算策略梯度，KL 正则化防止偏离参考策略。信号提取、再探索、任务合成在每个训练迭代后执行。

实验关键数据¶

主实验¶

模型	AppWorld-TestN TGC	AppWorld-TestC TGC	BFCL Multi-turn	平均提升
Qwen2.5-7B + CoEvolve	27.98 (+26.79)	8.39 (+7.67)	61.50 (+48.00)	+19.43%
Qwen3-4B + CoEvolve	35.71 (+19.04)	17.03 (+9.12)	63.00 (+36.50)	+15.58%
Qwen3-30B-A3B + CoEvolve	54.76 (+23.21)	31.65 (+11.75)	63.00 (+19.50)	+18.14%

消融实验¶

配置	关键指标	说明
仅遗忘信号	有效但不完整	只捕获能力退化
仅边界信号	有效但不完整	只捕获不稳定行为
仅稀有信号	有效但不完整	只捕获探索不足
三类信号联合	最佳	互补弱点全面覆盖
无环境验证	显著下降	幻觉任务引入噪声

关键发现¶

CoEvolve 使 Qwen2.5-7B 从几乎不可用（1.19%）变为中等水平（27.98%），提升幅度惊人
在 BFCL 上 Qwen2.5-7B+CoEvolve 达 61.50%，甚至超越 GPT-4（54.00%），说明数据质量可以弥补模型规模差距
Qwen3-30B-A3B+CoEvolve 在 AppWorld-TestN 上达 54.76%，接近 Claude-Sonnet-4.5（73.81%）
三类信号互补——单独使用任何一类都不如联合使用

亮点与洞察¶

"遗忘信号"作为数据选择标准是本文最巧妙的设计：借鉴课程学习中的遗忘事件概念，将其用于引导数据合成而非数据选择。这个思路可迁移到任何需要动态数据分布调整的训练场景
闭环设计（训练→发现弱点→合成数据→再训练）比单纯的数据增强更本质——它让训练分布和模型能力共同演化，是一种自适应课程学习
在 BFCL 上 7B 模型超越 GPT-4 的结果极为亮眼，有力证明了"针对性数据"比"大量随机数据"更有价值

局限与展望¶

需要真实环境交互做验证，限于有可执行环境的场景（如 API 调用、Web 导航），难以推广到开放域任务
信号提取的超参数（滑动窗口大小 W、稀有阈值 θ）可能需要针对不同环境调整
再探索阶段依赖强 LLM（用于反思和探索），这本身引入额外计算成本
未与其他自适应课程学习方法做直接对比

评分¶

新颖性: ⭐⭐⭐⭐ 智能体-数据共进化的闭环框架是新颖的范式，遗忘信号用于数据合成的想法巧妙
实验充分度: ⭐⭐⭐⭐ 多模型（7B/4B/30B）、多基准（AppWorld/BFCL）、详细消融、与闭源模型对比
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，方法流程图直观，但信号提取公式可精简