SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement¶
会议: ACL 2025
arXiv: 2504.03561
代码: https://github.com/zjunlp/SynWorld
领域: LLM Agent / 工具学习
关键词: action knowledge, MCTS, scenario synthesis, tool learning, agent exploration
一句话总结¶
SynWorld 提出让 Agent 在合成的虚拟场景中通过蒙特卡洛树搜索(MCTS)来探索和优化动作知识(工具描述和工作流),使 Agent 能够自主适应新环境的工具使用,在 ToolBench 上比 ReAct 基线提升约 9 个百分点。
研究背景与动机¶
- 领域现状:基于 LLM 的 Agent 通过调用工具(API)与环境交互完成任务,但工具描述文档经常与实际使用不一致。
- 现有痛点:
- 人工维护工具文档费时费力,且在新环境中文档常常缺失或过时
- 已有方法(如 EasyTool、DRAFT)在合成单步场景中学习,无法处理多步骤的工具组合
- 线性迭代优化方向不明确,容易陷入局部最优
- 核心矛盾:Agent 需要在未知环境中高效学习工具使用方式,但缺乏结构化的探索和优化机制
- 本文要解决什么? 让 Agent 自主探索环境、优化工具描述(action descriptions)和任务工作流
- 切入角度:用 LLM 合成涉及多工具组合的虚拟场景,在虚拟场景中用 MCTS 探索优化 action knowledge
- 核心 idea 一句话:从工具集中采样子集→合成多步骤场景→Agent 在虚拟场景中用 MCTS 试错→迭代优化工具描述和工作流→优化后的知识迁移到真实任务。
方法详解¶
整体框架¶
阶段 1: 场景合成:从工具集 T 中选取子集 t → LLM 生成包含背景 B 和目标 G 的虚拟场景 → 过滤相似度过高的场景。阶段 2: MCTS 探索:以初始 action knowledge 为根节点 → UCB 选择 → LLM 基于历史优化经验扩展(生成新版 action knowledge)→ Agent 在虚拟场景中执行获取反馈/评分 → 回传更新 → 迭代。
关键设计¶
- 多步骤场景合成:
- 做什么:生成需要多个工具协同的虚拟任务场景
- 核心思路:选取 2-4 个工具为一组 → LLM 用 few-shot 为每组生成 2-3 个场景 → 去重(余弦相似度 < ε)
-
设计动机:单工具场景无法学习工具间的协调工作流;"gold tools"标注使评估更可靠
-
MCTS 动作知识探索:
- 做什么:在树搜索框架中系统地探索 action knowledge 的优化方向
- 核心思路:节点 = 一版 action knowledge → 扩展 = LLM 根据历史优化经验 \(\mathcal{E}\)(优化前后分数+修改内容)生成新版本 → 评估 = Agent 用新版 AK 在虚拟场景中执行获取分数 → 回传至根节点更新 UCB 值
-
设计动机:MCTS 比线性迭代更擅长探索——UCB 平衡探索与利用,避免过早收敛到局部最优
-
Action Knowledge 双向优化:
- 做什么:同时优化 action descriptions(单工具描述)和 cognitive workflows(多工具工作流)
- 核心思路:优化时 LLM 分析虚拟场景中的失败轨迹,判断是描述不准确还是工作流不合理 → 针对性修改
- 设计动机:描述和工作流是 Agent 理解动作的两个互补层面,需要双向对齐
实验关键数据¶
主实验¶
| 模型 | 方法 | ToolBench PASS | ToolBench WIN | HotpotQA |
|---|---|---|---|---|
| GPT-4-turbo | ReAct | 50.67 | 67.00 | 54.61 |
| GPT-4-turbo | Self-Refine | 56.80 | 73.00 | 55.85 |
| GPT-4-turbo | DRAFT | 54.83 | 72.00 | 57.71 |
| GPT-4-turbo | SynWorld | 59.33 | 73.00 | 59.93 |
消融实验¶
| 配置 | ToolBench PASS |
|---|---|
| SynWorld (完整) | 59.33 |
| w/o MCTS (线性优化) | 55.20 |
| w/o 多步场景 (单步) | 53.80 |
| w/o workflow 优化 | 56.10 |
关键发现¶
- MCTS 比线性优化高 4+ 个百分点:结构化探索比盲目迭代更有效
- 多步场景比单步场景更有价值:因为多步场景迫使 Agent 学习工具间的协调
- 虚拟场景中学到的知识可迁移到真实任务:ToolBench 和 HotpotQA 上均有提升
亮点与洞察¶
- 虚拟场景合成 + MCTS 探索的组合是 Agent 自主学习的优雅方案:不需要人工标注,不需要真实环境反馈,Agent 在"想象"的场景中自我优化。可迁移到其他 Agent 系统的工具学习
- MCTS 用于元优化(优化 knowledge 而非直接行动)是创新点:传统 MCTS 用于规划动作序列,这里用于搜索最优的 knowledge representation
局限性 / 可改进方向¶
- 虚拟场景与真实场景的 domain gap:合成场景可能无法覆盖所有真实场景的复杂性
- MCTS 探索成本高:每次节点扩展和评估都需要 Agent 执行完整任务
- 提升幅度有限:相比 DRAFT 仅提升约 5 个百分点
相关工作与启发¶
- vs EasyTool (Yuan et al., 2024):EasyTool 用单步场景优化工具描述,SynWorld 用多步+MCTS 更全面
- vs DRAFT (Qu et al., 2024):DRAFT 用线性迭代优化,SynWorld 用 MCTS 避免局部最优
评分¶
- 新颖性: ⭐⭐⭐⭐ 虚拟场景+MCTS 元优化的思路新颖
- 实验充分度: ⭐⭐⭐⭐ 两个数据集+多模型+消融
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,形式化定义完整
- 价值: ⭐⭐⭐⭐ 对 Agent 工具学习有方法论贡献