A Benchmark for Deep Information Synthesis (DeepSynth)¶

会议: ICLR 2026
arXiv: 2602.21143
代码: 有（公开数据和代码）
领域: Agent
关键词: benchmark, information synthesis, deep research, multi-source reasoning, agent evaluation

一句话总结¶

提出 DeepSynth 基准，包含 120 个跨 7 领域 67 国的真实信息综合任务（平均需 5.5 小时人工标注），要求 agent 从多个网页收集信息并进行结构化推理，当前最强 agent（o3-deep-research）仅获 8.97 F1 / 17.5% LLM-Judge，揭示了 LLM agent 在信息综合方面的严重不足。

研究背景与动机¶

领域现状：LLM agent 在工具使用（网页浏览、代码执行、数据分析）方面快速进步，但现有基准主要评估浅层事实检索或单源信息查找。
现有痛点：现有 benchmark 存在三个问题：(1) 多为浅层检索任务（如 GAIA），不需要跨源综合；(2) 多依赖英文和 Wikipedia 等知名单一来源；(3) 未覆盖全球多样性的信息源和语言。
核心矛盾：真实世界的信息综合任务需要跨多个数据源收集结构化/非结构化数据，并进行复杂分析（趋势检测、相关性分析、异常检测等），现有 benchmark 无法评估这些能力。
本文要解决什么？ 构建一个评估 agent 深度信息综合能力的基准——任务答案不可直接检索，必须通过多步推理和跨源综合才能得到。
切入角度：从真实场景出发（16 位专家，每个任务平均 5.5 小时标注），先选数据源→提假设→验证分析→出题，确保答案不可记忆且需要真正综合推理。
核心idea一句话：构建一个需要"深度研究"能力的真实基准，揭示当前 agent 在信息综合上的巨大差距。

方法详解¶

整体框架¶

DeepSynth 不是一个方法论文，是一个 benchmark 论文。核心贡献是 120 个任务的设计、标注流程和全面评估。每个任务包含：问题（avg 78.5 tokens）、金标准中间推理步骤（avg 7.54 步）、支撑证据 URL、JSON 格式答案。

关键设计¶

四阶段数据构建流程:
做什么：从数据源识别→假设生成→假设验证→任务表述，确保任务的真实性和不可记忆性
核心思路：16 位专家先提出 223 个数据源（跨 7 领域），然后为每个数据源提出可验证的假设，进行分析得出洞见，最后将分析过程逆向转化为问题。关键是答案不能通过直接搜索获得
设计动机：传统做法是"先有答案再编问题"，本文反过来"先有分析再出题"，确保任务需要真正的多步推理而非记忆
多维评估指标:
做什么：结合精确匹配、F1（key-value pair 级别）、LLM-Judge 三个层次评估
核心思路：EM 最严格（所有 key-value 对都正确）；F1 评估部分正确性；LLM-Judge 允许语义等价和小数值偏差（1-5.5% margin）
设计动机：任务输出为 JSON 格式，可自动验证，同时通过多粒度指标全面反映模型能力
任务多样性设计:
覆盖 7 领域（社会经济、金融、环境、科学、教育、交通、政治）
跨 67 个国家，防止偏向英语或西方数据源
包含多种分析操作：趋势检测 21%、排名 20%、计数比较 34%、相关性分析 7%、异常检测 7%

损失函数 / 训练策略¶

N/A（benchmark 论文）

实验关键数据¶

主实验¶

模型/Agent	F1	EM	LLM-Judge
GPT-4.1	3.46	0.0	0.0
GPT-5.1	3.83	0.0	0.0
GPT-5.2-Pro	8.70	6.25	6.67
Gemini-2.5-Pro	6.25	0.0	5.0
DeepSeek-R1	3.23	1.67	2.5
o3-deep-research	8.97	2.50	17.5
Smolagent (GPT-5)	6.42	1.67	2.5
OWL (GPT-4.1)	5.41	1.67	12.5

消融实验（OWL 工具消融）¶

配置	F1	说明
Full	5.41	完整工具链
- Search	3.60	搜索是最关键能力，去掉后降 1.81
- Web Browsing	4.80	浏览能力也重要
- Doc Processing	4.90	文档处理影响较小
- Code Execution	4.82	代码执行也有贡献

关键发现¶

所有模型在 EM 上接近 0：没有模型能完美解决任何一个任务，说明 benchmark 极具挑战性
推理模型（o3、R1）vs 通用 LLM（GPT-4.1）的 F1 差距很小，说明瓶颈在信息获取而非推理本身
工具增强有帮助但远不够：o3-deep-research 比 base o3 高 5.68 F1，但仍然只有 ~9 分
Best-of-5 能提升到 25% LLM-Judge，但 Self-Consistency@5 只有 5%——agent 输出方差极大，偶尔对但无法稳定
非洲地区相关任务的表现显著下降，暴露了模型在 under-represented 数据源上的弱点

亮点与洞察¶

揭示了一个重要盲区：当前 "deep research" agent 的信息综合能力远未达到实用水平，120 个任务中最好的 agent 只能可靠解决 3 个
数据构建方法很值得学习：先分析再出题、双人验证、每题 5.5 小时标注的精细流程，确保了 benchmark 的高质量和抗污染性
瓶颈诊断有价值：通过对比有/无工具的表现，明确指出信息获取（而非推理）是当前主要瓶颈

局限性 / 可改进方向¶

120 个任务的规模偏小，可能不够覆盖所有信息综合场景
评估主要用 JSON 精确匹配，限制了对开放式回答的评估能力
标注依赖 16 位特定领域专家，可能引入标注者偏差
未评估 agent 使用搜索引擎 API 的能力（主要测试网页浏览）

补充讨论¶

Deep Information Synthesis 与 RAG 的区别¶

RAG 主要关注信息检索和组合，而 Deep Information Synthesis 要求模型进行多步推理、跨源验证和数据整合。这个区别很重要——现有 RAG benchmark 无法评估 agent 的“深度综合”能力。

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性评估 deep information synthesis 的 benchmark
实验充分度: ⭐⭐⭐⭐⭐ 11 个模型/agent、多维指标、工具消融、Best-of-N 分析
写作质量: ⭐⭐⭐⭐ 结构清晰，数据构建过程描述详尽
价值: ⭐⭐⭐⭐ 为 deep research agent 发展指明了方向和差距