跳转至

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

会议: ACL 2025
arXiv: 2504.03561
代码: https://github.com/zjunlp/SynWorld
领域: LLM Agent / 工具学习
关键词: action knowledge, MCTS, scenario synthesis, tool learning, agent exploration

一句话总结

SynWorld 提出让 Agent 在合成的虚拟场景中通过蒙特卡洛树搜索(MCTS)来探索和优化动作知识(工具描述和工作流),使 Agent 能够自主适应新环境的工具使用,在 ToolBench 上比 ReAct 基线提升约 9 个百分点。

研究背景与动机

  1. 领域现状:基于 LLM 的 Agent 通过调用工具(API)与环境交互完成任务,但工具描述文档经常与实际使用不一致。
  2. 现有痛点
  3. 人工维护工具文档费时费力,且在新环境中文档常常缺失或过时
  4. 已有方法(如 EasyTool、DRAFT)在合成单步场景中学习,无法处理多步骤的工具组合
  5. 线性迭代优化方向不明确,容易陷入局部最优
  6. 核心矛盾:Agent 需要在未知环境中高效学习工具使用方式,但缺乏结构化的探索和优化机制
  7. 本文要解决什么? 让 Agent 自主探索环境、优化工具描述(action descriptions)和任务工作流
  8. 切入角度:用 LLM 合成涉及多工具组合的虚拟场景,在虚拟场景中用 MCTS 探索优化 action knowledge
  9. 核心 idea 一句话:从工具集中采样子集→合成多步骤场景→Agent 在虚拟场景中用 MCTS 试错→迭代优化工具描述和工作流→优化后的知识迁移到真实任务。

方法详解

整体框架

阶段 1: 场景合成:从工具集 T 中选取子集 t → LLM 生成包含背景 B 和目标 G 的虚拟场景 → 过滤相似度过高的场景。阶段 2: MCTS 探索:以初始 action knowledge 为根节点 → UCB 选择 → LLM 基于历史优化经验扩展(生成新版 action knowledge)→ Agent 在虚拟场景中执行获取反馈/评分 → 回传更新 → 迭代。

关键设计

  1. 多步骤场景合成
  2. 做什么:生成需要多个工具协同的虚拟任务场景
  3. 核心思路:选取 2-4 个工具为一组 → LLM 用 few-shot 为每组生成 2-3 个场景 → 去重(余弦相似度 < ε)
  4. 设计动机:单工具场景无法学习工具间的协调工作流;"gold tools"标注使评估更可靠

  5. MCTS 动作知识探索

  6. 做什么:在树搜索框架中系统地探索 action knowledge 的优化方向
  7. 核心思路:节点 = 一版 action knowledge → 扩展 = LLM 根据历史优化经验 \(\mathcal{E}\)(优化前后分数+修改内容)生成新版本 → 评估 = Agent 用新版 AK 在虚拟场景中执行获取分数 → 回传至根节点更新 UCB 值
  8. 设计动机:MCTS 比线性迭代更擅长探索——UCB 平衡探索与利用,避免过早收敛到局部最优

  9. Action Knowledge 双向优化

  10. 做什么:同时优化 action descriptions(单工具描述)和 cognitive workflows(多工具工作流)
  11. 核心思路:优化时 LLM 分析虚拟场景中的失败轨迹,判断是描述不准确还是工作流不合理 → 针对性修改
  12. 设计动机:描述和工作流是 Agent 理解动作的两个互补层面,需要双向对齐

实验关键数据

主实验

模型 方法 ToolBench PASS ToolBench WIN HotpotQA
GPT-4-turbo ReAct 50.67 67.00 54.61
GPT-4-turbo Self-Refine 56.80 73.00 55.85
GPT-4-turbo DRAFT 54.83 72.00 57.71
GPT-4-turbo SynWorld 59.33 73.00 59.93

消融实验

配置 ToolBench PASS
SynWorld (完整) 59.33
w/o MCTS (线性优化) 55.20
w/o 多步场景 (单步) 53.80
w/o workflow 优化 56.10

关键发现

  • MCTS 比线性优化高 4+ 个百分点:结构化探索比盲目迭代更有效
  • 多步场景比单步场景更有价值:因为多步场景迫使 Agent 学习工具间的协调
  • 虚拟场景中学到的知识可迁移到真实任务:ToolBench 和 HotpotQA 上均有提升

亮点与洞察

  • 虚拟场景合成 + MCTS 探索的组合是 Agent 自主学习的优雅方案:不需要人工标注,不需要真实环境反馈,Agent 在"想象"的场景中自我优化。可迁移到其他 Agent 系统的工具学习
  • MCTS 用于元优化(优化 knowledge 而非直接行动)是创新点:传统 MCTS 用于规划动作序列,这里用于搜索最优的 knowledge representation

局限性 / 可改进方向

  • 虚拟场景与真实场景的 domain gap:合成场景可能无法覆盖所有真实场景的复杂性
  • MCTS 探索成本高:每次节点扩展和评估都需要 Agent 执行完整任务
  • 提升幅度有限:相比 DRAFT 仅提升约 5 个百分点

相关工作与启发

  • vs EasyTool (Yuan et al., 2024):EasyTool 用单步场景优化工具描述,SynWorld 用多步+MCTS 更全面
  • vs DRAFT (Qu et al., 2024):DRAFT 用线性迭代优化,SynWorld 用 MCTS 避免局部最优

评分

  • 新颖性: ⭐⭐⭐⭐ 虚拟场景+MCTS 元优化的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集+多模型+消融
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,形式化定义完整
  • 价值: ⭐⭐⭐⭐ 对 Agent 工具学习有方法论贡献