Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs¶
会议: CVPR 2026
arXiv: 2510.00507
代码: 无
领域: 多模态VLM / Agent评估
关键词: 知识图谱, 自动任务生成, Agent评估, 多模态文档理解, Web Agent
一句话总结¶
提出 Graph2Eval,一个基于知识图谱的自动化多模态 Agent 任务生成框架——从异构外部数据源构建知识图谱作为结构化任务空间,通过子图采样和元路径引导的任务构造生成语义一致且可解的 Agent 评测任务,相比 LLM 直接生成的任务提升语义一致性 20% 和可解性 17%,并发布了 1,319 个任务的 Graph2Eval-Bench 数据集。
背景与动机¶
随着多模态 LLM 驱动的 Agent 在自主性和泛化能力上的进步,传统静态数据集面临可扩展性限制——无法充分评估 Agent 在复杂多样任务中的能力。虽然已有研究尝试用 LLM 生成 Agent 任务,但存在两个问题:(1) LLM 幻觉导致语义不一致——生成的任务可能涉及不存在的信息或关系;(2) 缺乏内部数据关系建模——生成的任务可能不可解。
核心问题¶
如何自动化地、大规模地生成语义一致且可解的多模态 Agent 评测任务?
方法详解¶
整体框架¶
知识图谱驱动的三步流水线:(1) 从异构数据源构建知识图谱;(2) 通过子图采样+任务模板+元路径策略生成任务;(3) 多阶段过滤确保任务质量。
关键设计¶
-
知识图谱作为任务空间: 从异构外部数据源(文档、网页等)构建知识图谱,节点表示实体,边表示关系。KG 提供了一个结构化的、语义正确的任务空间——所有生成的任务都基于 KG 中的真实关系,从根源上避免了 LLM 幻觉。
-
子图采样+元路径引导的任务构造: 通过在 KG 中采样子图和沿元路径遍历来生成任务。任务模板定义任务类型(如"找到文档中关于X的信息"),元路径策略控制任务复杂度(路径越长,任务需要的推理步骤越多)。
-
多阶段过滤流水线: 三阶段确保质量——(a) 节点可达性分析:检查任务涉及的所有信息是否可从给定上下文到达;(b) LLM 评分:评估任务的自然性和合理性;(c) 相似度分析:确保任务多样性,过滤重复任务。
-
统一两类 Agent 场景: 覆盖 RAG Agent(多模态文档理解)和 Web Agent(多步网页交互)两个主要场景。
数据集¶
Graph2Eval-Bench:1,319 个任务,涵盖文档理解和网页交互场景。
实验关键数据¶
- 语义一致性提升 20% vs LLM 直接生成的基线
- 任务可解性提升 17% vs 基线
- Graph2Eval-Bench 能够有效区分不同 Agent 的性能差异
亮点¶
- 从根源解决 LLM 幻觉:用知识图谱保证任务中的信息和关系是真实存在的
- 可扩展性:只需扩展 KG 即可自动生成更多任务,无需人工标注
- 统一评估框架:同时覆盖 RAG Agent 和 Web Agent,评估面广
- 元路径控制复杂度:可以精确控制生成任务的推理难度
局限性 / 可改进方向¶
- KG 的覆盖范围决定了生成任务的多样性
- 仅基于摘要分析,具体的 KG 构建和元路径设计需参阅原文
与相关工作的对比¶
- vs LLM 直接生成 (如 AgentBench): LLM 生成有幻觉和不可解问题,Graph2Eval 用 KG 约束保证质量
- vs 手工标注数据集: 手工标注不可扩展,Graph2Eval 自动化生成
启发与关联¶
- KG 驱动的任务生成思路可以推广到其他 Agent 评估场景(如代码 Agent、科研 Agent)
- 多阶段过滤流水线的设计可以复用到其他自动数据生成任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 用 KG 约束 Agent 任务生成解决幻觉问题是新颖实用的方法
- 实验充分度: ⭐⭐⭐⭐ 1,319 任务数据集 + 一致性/可解性提升验证
- 写作质量: ⭐⭐⭐⭐ 摘要清晰完整
- 价值: ⭐⭐⭐⭐ 为 Agent 评估提供了可扩展的自动化方案