SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement¶

会议: ACL 2025
arXiv: 2504.03561
代码: https://github.com/zjunlp/SynWorld
领域: LLM Agent / 工具学习
关键词: action knowledge, MCTS, scenario synthesis, tool learning, agent exploration

一句话总结¶

SynWorld 提出让 Agent 在合成的虚拟场景中通过蒙特卡洛树搜索（MCTS）来探索和优化动作知识（工具描述和工作流），使 Agent 能够自主适应新环境的工具使用，在 ToolBench 上比 ReAct 基线提升约 9 个百分点。

研究背景与动机¶

领域现状：基于 LLM 的 Agent 通过调用工具（API）与环境交互完成任务，但工具描述文档经常与实际使用不一致。
现有痛点：
人工维护工具文档费时费力，且在新环境中文档常常缺失或过时
已有方法（如 EasyTool、DRAFT）在合成单步场景中学习，无法处理多步骤的工具组合
线性迭代优化方向不明确，容易陷入局部最优
核心矛盾：Agent 需要在未知环境中高效学习工具使用方式，但缺乏结构化的探索和优化机制
本文要解决什么？ 让 Agent 自主探索环境、优化工具描述（action descriptions）和任务工作流
切入角度：用 LLM 合成涉及多工具组合的虚拟场景，在虚拟场景中用 MCTS 探索优化 action knowledge
核心 idea 一句话：从工具集中采样子集→合成多步骤场景→Agent 在虚拟场景中用 MCTS 试错→迭代优化工具描述和工作流→优化后的知识迁移到真实任务。

方法详解¶

整体框架¶

阶段 1: 场景合成：从工具集 T 中选取子集 t → LLM 生成包含背景 B 和目标 G 的虚拟场景 → 过滤相似度过高的场景。阶段 2: MCTS 探索：以初始 action knowledge 为根节点 → UCB 选择 → LLM 基于历史优化经验扩展（生成新版 action knowledge）→ Agent 在虚拟场景中执行获取反馈/评分 → 回传更新 → 迭代。

关键设计¶

多步骤场景合成：
做什么：生成需要多个工具协同的虚拟任务场景
核心思路：选取 2-4 个工具为一组 → LLM 用 few-shot 为每组生成 2-3 个场景 → 去重（余弦相似度 < ε）
设计动机：单工具场景无法学习工具间的协调工作流；"gold tools"标注使评估更可靠
MCTS 动作知识探索：
做什么：在树搜索框架中系统地探索 action knowledge 的优化方向
核心思路：节点 = 一版 action knowledge → 扩展 = LLM 根据历史优化经验 \(\mathcal{E}\)（优化前后分数+修改内容）生成新版本 → 评估 = Agent 用新版 AK 在虚拟场景中执行获取分数 → 回传至根节点更新 UCB 值
设计动机：MCTS 比线性迭代更擅长探索——UCB 平衡探索与利用，避免过早收敛到局部最优
Action Knowledge 双向优化：
做什么：同时优化 action descriptions（单工具描述）和 cognitive workflows（多工具工作流）
核心思路：优化时 LLM 分析虚拟场景中的失败轨迹，判断是描述不准确还是工作流不合理 → 针对性修改
设计动机：描述和工作流是 Agent 理解动作的两个互补层面，需要双向对齐

实验关键数据¶

主实验¶

模型	方法	ToolBench PASS	ToolBench WIN	HotpotQA
GPT-4-turbo	ReAct	50.67	67.00	54.61
GPT-4-turbo	Self-Refine	56.80	73.00	55.85
GPT-4-turbo	DRAFT	54.83	72.00	57.71
GPT-4-turbo	SynWorld	59.33	73.00	59.93

消融实验¶

配置	ToolBench PASS
SynWorld (完整)	59.33
w/o MCTS (线性优化)	55.20
w/o 多步场景 (单步)	53.80
w/o workflow 优化	56.10

关键发现¶

MCTS 比线性优化高 4+ 个百分点：结构化探索比盲目迭代更有效
多步场景比单步场景更有价值：因为多步场景迫使 Agent 学习工具间的协调
虚拟场景中学到的知识可迁移到真实任务：ToolBench 和 HotpotQA 上均有提升

亮点与洞察¶

虚拟场景合成 + MCTS 探索的组合是 Agent 自主学习的优雅方案：不需要人工标注，不需要真实环境反馈，Agent 在"想象"的场景中自我优化。可迁移到其他 Agent 系统的工具学习
MCTS 用于元优化（优化 knowledge 而非直接行动）是创新点：传统 MCTS 用于规划动作序列，这里用于搜索最优的 knowledge representation

局限性 / 可改进方向¶

虚拟场景与真实场景的 domain gap：合成场景可能无法覆盖所有真实场景的复杂性
MCTS 探索成本高：每次节点扩展和评估都需要 Agent 执行完整任务
提升幅度有限：相比 DRAFT 仅提升约 5 个百分点

评分¶

新颖性: ⭐⭐⭐⭐ 虚拟场景+MCTS 元优化的思路新颖
实验充分度: ⭐⭐⭐⭐ 两个数据集+多模型+消融
写作质量: ⭐⭐⭐⭐ 框架图清晰，形式化定义完整
价值: ⭐⭐⭐⭐ 对 Agent 工具学习有方法论贡献