Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs¶

会议: CVPR 2026
arXiv: 2510.00507
代码: 无
领域: 多模态VLM / Agent评估
关键词: 知识图谱, 自动任务生成, Agent评估, 多模态文档理解, Web Agent

一句话总结¶

提出 Graph2Eval，一个基于知识图谱的自动化多模态 Agent 任务生成框架——从异构外部数据源构建知识图谱作为结构化任务空间，通过子图采样和元路径引导的任务构造生成语义一致且可解的 Agent 评测任务，相比 LLM 直接生成的任务提升语义一致性 20% 和可解性 17%，并发布了 1,319 个任务的 Graph2Eval-Bench 数据集。

背景与动机¶

随着多模态 LLM 驱动的 Agent 在自主性和泛化能力上的进步，传统静态数据集面临可扩展性限制——无法充分评估 Agent 在复杂多样任务中的能力。虽然已有研究尝试用 LLM 生成 Agent 任务，但存在两个问题：(1) LLM 幻觉导致语义不一致——生成的任务可能涉及不存在的信息或关系；(2) 缺乏内部数据关系建模——生成的任务可能不可解。

核心问题¶

如何自动化地、大规模地生成语义一致且可解的多模态 Agent 评测任务？

方法详解¶

整体框架¶

知识图谱驱动的三步流水线：(1) 从异构数据源构建知识图谱；(2) 通过子图采样+任务模板+元路径策略生成任务；(3) 多阶段过滤确保任务质量。

关键设计¶

知识图谱作为任务空间: 从异构外部数据源（文档、网页等）构建知识图谱，节点表示实体，边表示关系。KG 提供了一个结构化的、语义正确的任务空间——所有生成的任务都基于 KG 中的真实关系，从根源上避免了 LLM 幻觉。
子图采样+元路径引导的任务构造: 通过在 KG 中采样子图和沿元路径遍历来生成任务。任务模板定义任务类型（如"找到文档中关于X的信息"），元路径策略控制任务复杂度（路径越长，任务需要的推理步骤越多）。
多阶段过滤流水线: 三阶段确保质量——(a) 节点可达性分析：检查任务涉及的所有信息是否可从给定上下文到达；(b) LLM 评分：评估任务的自然性和合理性；(c) 相似度分析：确保任务多样性，过滤重复任务。
统一两类 Agent 场景: 覆盖 RAG Agent（多模态文档理解）和 Web Agent（多步网页交互）两个主要场景。

数据集¶

Graph2Eval-Bench：1,319 个任务，涵盖文档理解和网页交互场景。

实验关键数据¶

语义一致性提升 20% vs LLM 直接生成的基线
任务可解性提升 17% vs 基线
Graph2Eval-Bench 能够有效区分不同 Agent 的性能差异

亮点¶

从根源解决 LLM 幻觉：用知识图谱保证任务中的信息和关系是真实存在的
可扩展性：只需扩展 KG 即可自动生成更多任务，无需人工标注
统一评估框架：同时覆盖 RAG Agent 和 Web Agent，评估面广
元路径控制复杂度：可以精确控制生成任务的推理难度

局限性 / 可改进方向¶

KG 的覆盖范围决定了生成任务的多样性
仅基于摘要分析，具体的 KG 构建和元路径设计需参阅原文

与相关工作的对比¶

vs LLM 直接生成 (如 AgentBench): LLM 生成有幻觉和不可解问题，Graph2Eval 用 KG 约束保证质量
vs 手工标注数据集: 手工标注不可扩展，Graph2Eval 自动化生成

启发与关联¶

KG 驱动的任务生成思路可以推广到其他 Agent 评估场景（如代码 Agent、科研 Agent）
多阶段过滤流水线的设计可以复用到其他自动数据生成任务

评分¶

新颖性: ⭐⭐⭐⭐ 用 KG 约束 Agent 任务生成解决幻觉问题是新颖实用的方法
实验充分度: ⭐⭐⭐⭐ 1,319 任务数据集 + 一致性/可解性提升验证
写作质量: ⭐⭐⭐⭐ 摘要清晰完整
价值: ⭐⭐⭐⭐ 为 Agent 评估提供了可扩展的自动化方案