Hybrid Deep Searcher: Scalable Parallel and Sequential Search Reasoning¶
会议: ICLR 2026
arXiv: 2508.19113
代码: 无
领域: LLM 推理
关键词: 深度搜索, 并行搜索, 检索增强生成, 大语言推理模型, 测试时搜索扩展
一句话总结¶
提出 HybridDeepSearcher,通过构建 HDS-QA 数据集训练大语言推理模型(LRM)区分可并行化和顺序依赖的搜索查询,在 FanOutQA 上 F1 提升 +15.9、BrowseComp 子集上提升 +11.5,同时显著降低推理延迟并展示出一致的测试时搜索扩展能力。
研究背景与动机¶
大语言推理模型(LRM)如 OpenAI o3、DeepSeek-R1 结合检索增强生成(RAG)形成深度研究 agent,通过"推理—查询—检索"循环完成复杂多步任务。然而现有方法存在关键局限:
延迟过高:纯顺序查询逐一检索,每个查询都增加延迟
工作流不连贯:顺序搜索导致模型过早尝试回答或重复查询
可扩展性差:面对需要跨大量文档进行穷举搜索的问题,逐一查询难以覆盖所有证据
以 John Carpenter 电影问题为例:需要查询每部电影的时长。顺序方法逐一查询,不仅慢且容易遗漏;而同时查询所有电影时长则高效且准确得多。
核心问题:如何让 LRM 在深度研究中同时利用并行和顺序搜索策略?
方法详解¶
整体框架¶
方法包含两个核心部分:(1) HDS-QA 数据集构建,(2) HybridDeepSearcher 模型训练与推理。
关键设计¶
- HDS-QA 数据集构建:自动构建包含混合跳(hybrid-hop)问题的数据集
问题生成流水线(4步): - 实体提取与相关問题收集:从 Natural Questions 的单跳种子问题出发,提取中心实体,通过 Google "People Also Ask" 收集相关问题,并只保留检索到不同文档的查询以确保多样性 - 实体特征摘要:将检索文档摘要为该实体的关键特征 - 并行跳问题构造:利用特征组合成隐式引用实体(不直接提及)的并行跳问题 - 混合跳问题整合:将并行跳问题嵌入原始单跳问题,替换中心实体,引入额外的顺序跳。验证两个阶段都确实需要多步检索
最终生成 1,987 个混合跳问题。
答案轨迹生成: - 用 Qwen3-32B 迭代执行推理—查询—检索循环,允许每步同时发出多个并行查询 - 对每个问题推理4次,保留所有正确轨迹以增加推理策略多样性 - 773个问题得到正确答案,共 2,111 条成功轨迹(成功率约27%,说明任务确实困难)
-
HybridDeepSearcher 推理流程:
- 推理:模型在
<think>和</think>标记内进行推理 - 查询:基于推理输出,在
<|begin_search_queries|>和<|end_search_queries|>标记内生成顺序或并行查询,用;\n分隔多个并行查询 - 检索:每个查询通过 Web 搜索 API 执行,检索文档由外部模型(Qwen3-32B)摘要后返回
- 模型可迭代多轮推理—查询—检索,直到收集到足够信息后产生最终答案
- 推理:模型在
-
自适应搜索策略:模型学会动态判断何时使用并行查询(独立子问题)vs. 顺序查询(依赖前步结果的子问题),并在推理中明确展示当前步骤(蓝色)和后续计划(紫色)
损失函数 / 训练策略¶
- 基于 Qwen3-8B 进行全参数微调,使用 2,111 个问答轨迹对训练1个 epoch
- 学习率 3e-5,batch size 4,梯度累积 32 步
- 不对搜索结果部分应用梯度更新,防止模型记忆检索内容
- 训练仅需 8 块 A100 40GB,约 30 分钟
实验关键数据¶
主实验¶
| 数据集 | 指标 | HybridDeepSearcher | RAG-R1 (SOTA) | 提升 |
|---|---|---|---|---|
| MuSiQue | F1 | 31.2 | 29.7 | +1.5 |
| FanOutQA | F1 | 44.1 | 28.2 | +15.9 |
| FRAMES | F1 | 39.1 | 35.8 | +3.3 |
| MedBrowseComp | MBE | 30.4 | 28.2 | +2.2 |
| BrowseComp-50 | F1 | 17.2 | 5.7 | +11.5 |
AUC(效率-效果权衡):在所有基准上达到最高值,说明模型在更少搜索轮次内达到更高精度。
消融实验 / 搜索能力分析¶
| 方法 | MuSiQue 覆盖率 | FanOutQA 覆盖率 | FRAMES 覆盖率 |
|---|---|---|---|
| Search-o1 | 33.4% | 38.3% | 44.8% |
| DeepResearcher | 38.8% | 49.9% | 49.0% |
| RAG-R1 | 35.9% | 53.2% | 48.0% |
| HybridDeepSearcher | 40.7% | 61.0% | 55.8% |
在 FanOutQA 上证据覆盖率提升最大(+7.8pp),该数据集标注证据链接最多,最需要广泛并行检索。
关键发现¶
-
测试时搜索扩展(核心优势):
- HybridDeepSearcher 的性能随搜索轮次和API调用增加而持续提升
- RAG-R1 等基线在 2-3 轮后性能停滞
- 在 BrowseComp-50 上尤为明显:其他方法几乎无法受益于更多搜索预算
-
效率优势:用更少的搜索轮次达到更高精度
- 在 FanOutQA 上用约3轮搜索就超越其他方法用5轮以上的结果
-
非迭代方法的失败:直接生成和标准 RAG 效果极差(BrowseComp-50 上 F1 为 0.0/1.8),证明这些基准确实需要外部知识和多步推理
-
Case Study 洞察:
- 在 FRAMES 的 John Carpenter 问题上,HybridDeepSearcher 并行查询12部电影的时长并找到正确答案(Starman, 115分钟),而 DeepResearcher 先入为主猜测 The Thing、Search-o1 陷入循环查询
亮点与洞察¶
- 并行+顺序搜索的统一:首次系统性地训练 LRM 区分可并行化和顺序依赖的查询,填补了现有工作的空白
- 数据集构建巧妙:HDS-QA 的自动构建流水线从 NQ 出发,通过"People Also Ask"引入并行性,设计精巧且可扩展
- SFT 优于 RL:仅用 2,111 条轨迹的监督微调就超越了使用 GRPO 的 RL 方法(如 Search-R1、DeepResearcher),说明高质量的混合搜索示范数据极其重要
- 搜索扩展性:该方法是少数展示出一致测试时搜索扩展能力的工作,性能随计算预算增长而不饱和
- 训练成本极低:仅需 30 分钟在 8 块 A100 上微调,开销远低于 RL 训练方法
局限与展望¶
- 仅使用 SFT 训练,未结合偏好优化(DPO/RLHF),可利用 HDS-QA 中的成功和失败轨迹进一步提升
- 搜索查询摘要依赖外部大模型(Qwen3-32B),增加了系统复杂度和API调用成本
- HDS-QA 仅基于 Natural Questions 构建,领域覆盖可能有限
- 未探索多 Agent 协作搜索的可能性
- BrowseComp-50 仅选取了 o3 能解决的50道题,选择偏差可能影响评估公平性
相关工作与启发¶
- Search-o1:基于 prompt 的迭代推理-查询-检索框架,单查询顺序搜索
- Search-R1 / DeepResearcher:使用 GRPO 训练增强搜索推理能力,但训练数据缺少并行搜索示范
- RAG-R1:多查询基线,性能不错但缺乏搜索扩展性
- APR:自适应并行推理,但仅在 Countdown 等玩具任务上验证
本文对 RAG 系统设计的启发:将"何时并行、何时顺序"作为显式训练信号,比单纯增加推理能力更有效。混合搜索策略可能是大规模深度研究 Agent 的关键能力。
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐
相关论文¶
- [ICLR 2026] Summaries as Centroids for Interpretable and Scalable Text Clustering
- [NeurIPS 2025] Deep Research Brings Deeper Harm
- [ICLR 2026] RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning
- [ICLR 2026] G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge
- [AAAI 2026] SR-KI: Scalable and Real-Time Knowledge Integration into LLMs via Supervised Attention