A Benchmark for Deep Information Synthesis (DeepSynth)¶
会议: ICLR 2026
arXiv: 2602.21143
代码: 有(公开数据和代码)
领域: Agent
关键词: benchmark, information synthesis, deep research, multi-source reasoning, agent evaluation
一句话总结¶
提出 DeepSynth 基准,包含 120 个跨 7 领域 67 国的真实信息综合任务(平均需 5.5 小时人工标注),要求 agent 从多个网页收集信息并进行结构化推理,当前最强 agent(o3-deep-research)仅获 8.97 F1 / 17.5% LLM-Judge,揭示了 LLM agent 在信息综合方面的严重不足。
研究背景与动机¶
- 领域现状:LLM agent 在工具使用(网页浏览、代码执行、数据分析)方面快速进步,但现有基准主要评估浅层事实检索或单源信息查找。
- 现有痛点:现有 benchmark 存在三个问题:(1) 多为浅层检索任务(如 GAIA),不需要跨源综合;(2) 多依赖英文和 Wikipedia 等知名单一来源;(3) 未覆盖全球多样性的信息源和语言。
- 核心矛盾:真实世界的信息综合任务需要跨多个数据源收集结构化/非结构化数据,并进行复杂分析(趋势检测、相关性分析、异常检测等),现有 benchmark 无法评估这些能力。
- 本文要解决什么? 构建一个评估 agent 深度信息综合能力的基准——任务答案不可直接检索,必须通过多步推理和跨源综合才能得到。
- 切入角度:从真实场景出发(16 位专家,每个任务平均 5.5 小时标注),先选数据源→提假设→验证分析→出题,确保答案不可记忆且需要真正综合推理。
- 核心idea一句话:构建一个需要"深度研究"能力的真实基准,揭示当前 agent 在信息综合上的巨大差距。
方法详解¶
整体框架¶
DeepSynth 不是一个方法论文,是一个 benchmark 论文。核心贡献是 120 个任务的设计、标注流程和全面评估。每个任务包含:问题(avg 78.5 tokens)、金标准中间推理步骤(avg 7.54 步)、支撑证据 URL、JSON 格式答案。
关键设计¶
- 四阶段数据构建流程:
- 做什么:从数据源识别→假设生成→假设验证→任务表述,确保任务的真实性和不可记忆性
- 核心思路:16 位专家先提出 223 个数据源(跨 7 领域),然后为每个数据源提出可验证的假设,进行分析得出洞见,最后将分析过程逆向转化为问题。关键是答案不能通过直接搜索获得
-
设计动机:传统做法是"先有答案再编问题",本文反过来"先有分析再出题",确保任务需要真正的多步推理而非记忆
-
多维评估指标:
- 做什么:结合精确匹配、F1(key-value pair 级别)、LLM-Judge 三个层次评估
- 核心思路:EM 最严格(所有 key-value 对都正确);F1 评估部分正确性;LLM-Judge 允许语义等价和小数值偏差(1-5.5% margin)
-
设计动机:任务输出为 JSON 格式,可自动验证,同时通过多粒度指标全面反映模型能力
-
任务多样性设计:
- 覆盖 7 领域(社会经济、金融、环境、科学、教育、交通、政治)
- 跨 67 个国家,防止偏向英语或西方数据源
- 包含多种分析操作:趋势检测 21%、排名 20%、计数比较 34%、相关性分析 7%、异常检测 7%
损失函数 / 训练策略¶
N/A(benchmark 论文)
实验关键数据¶
主实验¶
| 模型/Agent | F1 | EM | LLM-Judge |
|---|---|---|---|
| GPT-4.1 | 3.46 | 0.0 | 0.0 |
| GPT-5.1 | 3.83 | 0.0 | 0.0 |
| GPT-5.2-Pro | 8.70 | 6.25 | 6.67 |
| Gemini-2.5-Pro | 6.25 | 0.0 | 5.0 |
| DeepSeek-R1 | 3.23 | 1.67 | 2.5 |
| o3-deep-research | 8.97 | 2.50 | 17.5 |
| Smolagent (GPT-5) | 6.42 | 1.67 | 2.5 |
| OWL (GPT-4.1) | 5.41 | 1.67 | 12.5 |
消融实验(OWL 工具消融)¶
| 配置 | F1 | 说明 |
|---|---|---|
| Full | 5.41 | 完整工具链 |
| - Search | 3.60 | 搜索是最关键能力,去掉后降 1.81 |
| - Web Browsing | 4.80 | 浏览能力也重要 |
| - Doc Processing | 4.90 | 文档处理影响较小 |
| - Code Execution | 4.82 | 代码执行也有贡献 |
关键发现¶
- 所有模型在 EM 上接近 0:没有模型能完美解决任何一个任务,说明 benchmark 极具挑战性
- 推理模型(o3、R1)vs 通用 LLM(GPT-4.1)的 F1 差距很小,说明瓶颈在信息获取而非推理本身
- 工具增强有帮助但远不够:o3-deep-research 比 base o3 高 5.68 F1,但仍然只有 ~9 分
- Best-of-5 能提升到 25% LLM-Judge,但 Self-Consistency@5 只有 5%——agent 输出方差极大,偶尔对但无法稳定
- 非洲地区相关任务的表现显著下降,暴露了模型在 under-represented 数据源上的弱点
亮点与洞察¶
- 揭示了一个重要盲区:当前 "deep research" agent 的信息综合能力远未达到实用水平,120 个任务中最好的 agent 只能可靠解决 3 个
- 数据构建方法很值得学习:先分析再出题、双人验证、每题 5.5 小时标注的精细流程,确保了 benchmark 的高质量和抗污染性
- 瓶颈诊断有价值:通过对比有/无工具的表现,明确指出信息获取(而非推理)是当前主要瓶颈
局限性 / 可改进方向¶
- 120 个任务的规模偏小,可能不够覆盖所有信息综合场景
- 评估主要用 JSON 精确匹配,限制了对开放式回答的评估能力
- 标注依赖 16 位特定领域专家,可能引入标注者偏差
- 未评估 agent 使用搜索引擎 API 的能力(主要测试网页浏览)
相关工作与启发¶
- vs GAIA: GAIA 是通用 AI assistant 评估,DeepSynth 专注于信息综合的深度推理,更接近真实 deep research 场景
- vs BrowseComp: BrowseComp 侧重信息检索难度,DeepSynth 更强调跨源综合分析
- vs FRAMES: FRAMES 是事实核查+多跳检索,DeepSynth 需要额外的分析和结构化输出
补充讨论¶
Deep Information Synthesis 与 RAG 的区别¶
RAG 主要关注信息检索和组合,而 Deep Information Synthesis 要求模型进行多步推理、跨源验证和数据整合。这个区别很重要——现有 RAG benchmark 无法评估 agent 的“深度综合”能力。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性评估 deep information synthesis 的 benchmark
- 实验充分度: ⭐⭐⭐⭐⭐ 11 个模型/agent、多维指标、工具消融、Best-of-N 分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据构建过程描述详尽
- 价值: ⭐⭐⭐⭐ 为 deep research agent 发展指明了方向和差距