跳转至

A Benchmark for Deep Information Synthesis (DeepSynth)

会议: ICLR 2026
arXiv: 2602.21143
代码: 有(公开数据和代码)
领域: Agent
关键词: benchmark, information synthesis, deep research, multi-source reasoning, agent evaluation

一句话总结

提出 DeepSynth 基准,包含 120 个跨 7 领域 67 国的真实信息综合任务(平均需 5.5 小时人工标注),要求 agent 从多个网页收集信息并进行结构化推理,当前最强 agent(o3-deep-research)仅获 8.97 F1 / 17.5% LLM-Judge,揭示了 LLM agent 在信息综合方面的严重不足。

研究背景与动机

  1. 领域现状:LLM agent 在工具使用(网页浏览、代码执行、数据分析)方面快速进步,但现有基准主要评估浅层事实检索或单源信息查找。
  2. 现有痛点:现有 benchmark 存在三个问题:(1) 多为浅层检索任务(如 GAIA),不需要跨源综合;(2) 多依赖英文和 Wikipedia 等知名单一来源;(3) 未覆盖全球多样性的信息源和语言。
  3. 核心矛盾:真实世界的信息综合任务需要跨多个数据源收集结构化/非结构化数据,并进行复杂分析(趋势检测、相关性分析、异常检测等),现有 benchmark 无法评估这些能力。
  4. 本文要解决什么? 构建一个评估 agent 深度信息综合能力的基准——任务答案不可直接检索,必须通过多步推理和跨源综合才能得到。
  5. 切入角度:从真实场景出发(16 位专家,每个任务平均 5.5 小时标注),先选数据源→提假设→验证分析→出题,确保答案不可记忆且需要真正综合推理。
  6. 核心idea一句话:构建一个需要"深度研究"能力的真实基准,揭示当前 agent 在信息综合上的巨大差距。

方法详解

整体框架

DeepSynth 不是一个方法论文,是一个 benchmark 论文。核心贡献是 120 个任务的设计、标注流程和全面评估。每个任务包含:问题(avg 78.5 tokens)、金标准中间推理步骤(avg 7.54 步)、支撑证据 URL、JSON 格式答案。

关键设计

  1. 四阶段数据构建流程:
  2. 做什么:从数据源识别→假设生成→假设验证→任务表述,确保任务的真实性和不可记忆性
  3. 核心思路:16 位专家先提出 223 个数据源(跨 7 领域),然后为每个数据源提出可验证的假设,进行分析得出洞见,最后将分析过程逆向转化为问题。关键是答案不能通过直接搜索获得
  4. 设计动机:传统做法是"先有答案再编问题",本文反过来"先有分析再出题",确保任务需要真正的多步推理而非记忆

  5. 多维评估指标:

  6. 做什么:结合精确匹配、F1(key-value pair 级别)、LLM-Judge 三个层次评估
  7. 核心思路:EM 最严格(所有 key-value 对都正确);F1 评估部分正确性;LLM-Judge 允许语义等价和小数值偏差(1-5.5% margin)
  8. 设计动机:任务输出为 JSON 格式,可自动验证,同时通过多粒度指标全面反映模型能力

  9. 任务多样性设计:

  10. 覆盖 7 领域(社会经济、金融、环境、科学、教育、交通、政治)
  11. 跨 67 个国家,防止偏向英语或西方数据源
  12. 包含多种分析操作:趋势检测 21%、排名 20%、计数比较 34%、相关性分析 7%、异常检测 7%

损失函数 / 训练策略

N/A(benchmark 论文)

实验关键数据

主实验

模型/Agent F1 EM LLM-Judge
GPT-4.1 3.46 0.0 0.0
GPT-5.1 3.83 0.0 0.0
GPT-5.2-Pro 8.70 6.25 6.67
Gemini-2.5-Pro 6.25 0.0 5.0
DeepSeek-R1 3.23 1.67 2.5
o3-deep-research 8.97 2.50 17.5
Smolagent (GPT-5) 6.42 1.67 2.5
OWL (GPT-4.1) 5.41 1.67 12.5

消融实验(OWL 工具消融)

配置 F1 说明
Full 5.41 完整工具链
- Search 3.60 搜索是最关键能力,去掉后降 1.81
- Web Browsing 4.80 浏览能力也重要
- Doc Processing 4.90 文档处理影响较小
- Code Execution 4.82 代码执行也有贡献

关键发现

  • 所有模型在 EM 上接近 0:没有模型能完美解决任何一个任务,说明 benchmark 极具挑战性
  • 推理模型(o3、R1)vs 通用 LLM(GPT-4.1)的 F1 差距很小,说明瓶颈在信息获取而非推理本身
  • 工具增强有帮助但远不够:o3-deep-research 比 base o3 高 5.68 F1,但仍然只有 ~9 分
  • Best-of-5 能提升到 25% LLM-Judge,但 Self-Consistency@5 只有 5%——agent 输出方差极大,偶尔对但无法稳定
  • 非洲地区相关任务的表现显著下降,暴露了模型在 under-represented 数据源上的弱点

亮点与洞察

  • 揭示了一个重要盲区:当前 "deep research" agent 的信息综合能力远未达到实用水平,120 个任务中最好的 agent 只能可靠解决 3 个
  • 数据构建方法很值得学习:先分析再出题、双人验证、每题 5.5 小时标注的精细流程,确保了 benchmark 的高质量和抗污染性
  • 瓶颈诊断有价值:通过对比有/无工具的表现,明确指出信息获取(而非推理)是当前主要瓶颈

局限性 / 可改进方向

  • 120 个任务的规模偏小,可能不够覆盖所有信息综合场景
  • 评估主要用 JSON 精确匹配,限制了对开放式回答的评估能力
  • 标注依赖 16 位特定领域专家,可能引入标注者偏差
  • 未评估 agent 使用搜索引擎 API 的能力(主要测试网页浏览)

相关工作与启发

  • vs GAIA: GAIA 是通用 AI assistant 评估,DeepSynth 专注于信息综合的深度推理,更接近真实 deep research 场景
  • vs BrowseComp: BrowseComp 侧重信息检索难度,DeepSynth 更强调跨源综合分析
  • vs FRAMES: FRAMES 是事实核查+多跳检索,DeepSynth 需要额外的分析和结构化输出

补充讨论

Deep Information Synthesis 与 RAG 的区别

RAG 主要关注信息检索和组合,而 Deep Information Synthesis 要求模型进行多步推理、跨源验证和数据整合。这个区别很重要——现有 RAG benchmark 无法评估 agent 的“深度综合”能力。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性评估 deep information synthesis 的 benchmark
  • 实验充分度: ⭐⭐⭐⭐⭐ 11 个模型/agent、多维指标、工具消融、Best-of-N 分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据构建过程描述详尽
  • 价值: ⭐⭐⭐⭐ 为 deep research agent 发展指明了方向和差距