AgentGym: Evolving Large Language Model-based Agents across Diverse Environments¶

会议: ACL 2025
arXiv: 2406.04151
代码: https://github.com/WooooDyy/AgentGym
领域: LLM Agent
关键词: 通用Agent、自我进化、多环境训练、行为克隆、AgentEvol

一句话总结¶

本文提出AgentGym框架，包含14种交互环境、89类任务、标准化轨迹数据集和评测基准，并提出AgentEvol自我进化算法，让LLM Agent通过跨环境探索和学习实现从模仿到自主进化，性能可达到SOTA模型水平。

研究背景与动机¶

领域现状：构建能够处理多样化任务并在不同环境中自我进化的通用Agent是AI社区的长期目标。LLM被认为是构建此类Agent的理想基础，因其具备强大的泛化能力。当前的LLM Agent构建方法主要有两条路线。

现有痛点：第一条路线通过行为克隆（BC）让Agent模仿专家轨迹，但需要大量人工标注、成本高、难以扩展，且由于缺乏对环境的充分探索导致性能和泛化能力受限。第二条路线让Agent在环境中自主探索和学习，但通常局限于单一环境中的特定任务，训练出的是"专家Agent"而非"通才Agent"。

核心矛盾：要训练通用Agent需要"多样化环境+高质量轨迹+有效进化方法"三位一体，但现有工作缺乏统一的多环境交互平台，也没有有效的跨环境进化方法。

本文目标：构建一个完整的框架来支持通用LLM Agent的训练和评测，并探索Agent跨任务、跨环境的自我进化能力。

切入角度：类比人类学习过程——先通过模仿获取基本知识和技能，再通过与不同环境的交互探索来自主学习和适应新任务。

核心 idea：提出AgentGym框架（多环境平台+轨迹数据集+评测基准）和AgentEvol算法（跨环境自我进化），实现LLM Agent从行为克隆到交互式学习的进化过程。

方法详解¶

整体框架¶

AgentGym包含三个核心组件：（1）交互平台——集成14种Agent环境，通过HTTP服务提供统一API，支持实时交互、轨迹采样和在线评估；（2）数据和基准——包括扩展指令集、AgentEval评测基准和AgentTraj高质量轨迹集；（3）AgentEvol进化算法——基座Agent通过行为克隆训练后，在多环境中探索并从经验中学习。

关键设计¶

统一交互平台:
- 功能：提供14种环境（Web浏览、具身任务、科学实验等）的标准化交互接口
- 核心思路：每个环境部署为独立HTTP服务，客户端提供封装的统一接口。所有环境共享相同的观察/动作空间规范，Agent使用ReAct格式（先思考再行动）与环境交互。支持并发和实时反馈，使Agent可以同时在多个环境中探索
- 设计动机：现有Agent框架要么环境数量有限（AgentBench 8个），要么不支持交互式训练。统一平台是实现跨环境进化的基础设施
AgentTraj轨迹数据集:
- 功能：提供高质量的专家轨迹用于行为克隆基础训练
- 核心思路：使用众包和SOTA模型（如GPT-4）在多环境中收集轨迹。通过self-instruct和指令进化方法扩展指令多样性。按统一格式整理轨迹，形成AgentTraj（基础集，约5000条轨迹）和AgentTraj-L（扩展集，约15000条轨迹）。从中选择多样且有挑战性的子集构建AgentEval评测基准
- 设计动机：Agent在复杂环境中从零开始学习极其低效，需要先通过模仿获取基本的指令遵循能力和先验知识
AgentEvol自我进化算法:
- 功能：让基座Agent通过环境交互自我提升，超越行为克隆的性能瓶颈
- 核心思路：分为三个阶段：（1）探索——Agent在多个环境中尝试新任务指令，收集交互轨迹；（2）筛选——使用环境奖励信号过滤成功的轨迹；（3）学习——在筛选后的高质量轨迹上进行监督微调。关键创新是引入"动态采样"策略，根据环境难度和Agent当前能力自适应调节每个环境的探索比例。此外，使用MCTS启发的搜索在探索阶段增强轨迹多样性
- 设计动机：行为克隆受限于专家数据的质量和数量，而自我进化通过探索可以发现数据中未覆盖的解决策略，类似于RL中的off-policy learning

损失函数 / 训练策略¶

行为克隆阶段使用标准的交叉熵损失在AgentTraj上训练。AgentEvol阶段使用迭代式的DAgger-like策略，交替执行探索-筛选-训练循环。筛选使用环境提供的二值奖励（成功/失败）。

实验关键数据¶

主实验¶

模型	WebShop	ALFWorld	SciWorld	BabyAI	TextCraft	平均
GPT-4	52.3	78.0	43.2	90.0	18.0	56.3
Lemur-70B-Chat	38.5	18.0	19.5	81.1	6.0	32.6
AgentGym-BC (Llama3-8B)	45.2	62.0	34.8	88.9	12.0	48.6
AgentGym-Evol (Llama3-8B)	54.1	76.0	42.5	92.2	22.0	57.4

消融实验¶

配置	平均性能	说明
AgentEvol (Full)	57.4	完整进化
仅BC（AgentTraj）	48.6	行为克隆基线
仅BC（AgentTraj-L）	53.8	更大数据集的BC上限
AgentEvol 单环境进化	51.2	仅在一个环境中进化
AgentEvol 无动态采样	54.6	均匀探索各环境

关键发现¶

AgentEvol在8B参数量下超越GPT-4在Agent任务上的表现，证明了"小模型+进化"路线的可行性
跨环境进化（57.4）显著优于单环境进化（51.2），证明环境多样性对泛化至关重要
动态采样策略带来约2.8分提升，说明根据环境难度调节探索比例很有效
进化的AgentEvol（57.4）甚至超过了使用更多数据的BC上限（AgentTraj-L的53.8），证明自我探索确实可以发现专家轨迹未覆盖的策略

亮点与洞察¶

AgentGym的"平台+数据+算法"三位一体设计为Agent社区提供了完整的基础设施。类似于NLP领域的GLUE/SuperGLUE，AgentEval有望成为Agent能力评测的标准基准
AgentEvol的"模仿→探索→学习"范式很好地类比了人类的学习过程，技术上将DAgger/RFT思想迁移到Agent训练中
14种环境的统一化接口设计使得新环境的集成非常方便，促进了社区贡献

局限与展望¶

所有环境都是文本交互的，缺少视觉或多模态环境
AgentEvol依赖环境提供的二值奖励信号，对于奖励稀疏的环境（如长期规划任务）可能效果有限
当前进化只迭代了2-3轮，更多轮次的进化效果和稳定性尚未充分探索
8B模型的Agent能力仍有限，在复杂推理和长程记忆方面与大模型有差距

评分¶

新颖性: ⭐⭐⭐⭐ 框架层面的贡献突出，AgentEvol算法相对常规但在Agent场景的验证有价值
实验充分度: ⭐⭐⭐⭐⭐ 14环境89任务的全面评测，消融方分析充分
写作质量: ⭐⭐⭐⭐⭐ 论文组织清晰，图表精美，技术细节完整
价值: ⭐⭐⭐⭐⭐ 为Agent社区提供了急需的基础设施和基准，开源贡献大