Hybrid Deep Searcher: Scalable Parallel and Sequential Search Reasoning¶

会议: ICLR 2026
arXiv: 2508.19113
代码: 无
领域: LLM 推理
关键词: 深度搜索, 并行搜索, 检索增强生成, 大语言推理模型, 测试时搜索扩展

一句话总结¶

提出 HybridDeepSearcher，通过构建 HDS-QA 数据集训练大语言推理模型（LRM）区分可并行化和顺序依赖的搜索查询，在 FanOutQA 上 F1 提升 +15.9、BrowseComp 子集上提升 +11.5，同时显著降低推理延迟并展示出一致的测试时搜索扩展能力。

研究背景与动机¶

大语言推理模型（LRM）如 OpenAI o3、DeepSeek-R1 结合检索增强生成（RAG）形成深度研究 agent，通过"推理—查询—检索"循环完成复杂多步任务。然而现有方法存在关键局限：

延迟过高：纯顺序查询逐一检索，每个查询都增加延迟

工作流不连贯：顺序搜索导致模型过早尝试回答或重复查询

可扩展性差：面对需要跨大量文档进行穷举搜索的问题，逐一查询难以覆盖所有证据

以 John Carpenter 电影问题为例：需要查询每部电影的时长。顺序方法逐一查询，不仅慢且容易遗漏；而同时查询所有电影时长则高效且准确得多。

核心问题：如何让 LRM 在深度研究中同时利用并行和顺序搜索策略？

方法详解¶

整体框架¶

方法包含两个核心部分：(1) HDS-QA 数据集构建，(2) HybridDeepSearcher 模型训练与推理。

关键设计¶

HDS-QA 数据集构建：自动构建包含混合跳（hybrid-hop）问题的数据集

问题生成流水线（4步）： - 实体提取与相关問题收集：从 Natural Questions 的单跳种子问题出发，提取中心实体，通过 Google "People Also Ask" 收集相关问题，并只保留检索到不同文档的查询以确保多样性 - 实体特征摘要：将检索文档摘要为该实体的关键特征 - 并行跳问题构造：利用特征组合成隐式引用实体（不直接提及）的并行跳问题 - 混合跳问题整合：将并行跳问题嵌入原始单跳问题，替换中心实体，引入额外的顺序跳。验证两个阶段都确实需要多步检索

最终生成 1,987 个混合跳问题。

答案轨迹生成： - 用 Qwen3-32B 迭代执行推理—查询—检索循环，允许每步同时发出多个并行查询 - 对每个问题推理4次，保留所有正确轨迹以增加推理策略多样性 - 773个问题得到正确答案，共 2,111 条成功轨迹（成功率约27%，说明任务确实困难）

HybridDeepSearcher 推理流程：
- 推理：模型在 <think> 和 </think> 标记内进行推理
- 查询：基于推理输出，在 <|begin_search_queries|> 和 <|end_search_queries|> 标记内生成顺序或并行查询，用 ;\n 分隔多个并行查询
- 检索：每个查询通过 Web 搜索 API 执行，检索文档由外部模型（Qwen3-32B）摘要后返回
- 模型可迭代多轮推理—查询—检索，直到收集到足够信息后产生最终答案
自适应搜索策略：模型学会动态判断何时使用并行查询（独立子问题）vs. 顺序查询（依赖前步结果的子问题），并在推理中明确展示当前步骤（蓝色）和后续计划（紫色）

损失函数 / 训练策略¶

基于 Qwen3-8B 进行全参数微调，使用 2,111 个问答轨迹对训练1个 epoch
学习率 3e-5，batch size 4，梯度累积 32 步
不对搜索结果部分应用梯度更新，防止模型记忆检索内容
训练仅需 8 块 A100 40GB，约 30 分钟

实验关键数据¶

主实验¶

数据集	指标	HybridDeepSearcher	RAG-R1 (SOTA)	提升
MuSiQue	F1	31.2	29.7	+1.5
FanOutQA	F1	44.1	28.2	+15.9
FRAMES	F1	39.1	35.8	+3.3
MedBrowseComp	MBE	30.4	28.2	+2.2
BrowseComp-50	F1	17.2	5.7	+11.5

AUC（效率-效果权衡）：在所有基准上达到最高值，说明模型在更少搜索轮次内达到更高精度。

消融实验 / 搜索能力分析¶

方法	MuSiQue 覆盖率	FanOutQA 覆盖率	FRAMES 覆盖率
Search-o1	33.4%	38.3%	44.8%
DeepResearcher	38.8%	49.9%	49.0%
RAG-R1	35.9%	53.2%	48.0%
HybridDeepSearcher	40.7%	61.0%	55.8%

在 FanOutQA 上证据覆盖率提升最大（+7.8pp），该数据集标注证据链接最多，最需要广泛并行检索。

关键发现¶

测试时搜索扩展（核心优势）：
- HybridDeepSearcher 的性能随搜索轮次和API调用增加而持续提升
- RAG-R1 等基线在 2-3 轮后性能停滞
- 在 BrowseComp-50 上尤为明显：其他方法几乎无法受益于更多搜索预算
效率优势：用更少的搜索轮次达到更高精度
- 在 FanOutQA 上用约3轮搜索就超越其他方法用5轮以上的结果
非迭代方法的失败：直接生成和标准 RAG 效果极差（BrowseComp-50 上 F1 为 0.0/1.8），证明这些基准确实需要外部知识和多步推理
Case Study 洞察：
- 在 FRAMES 的 John Carpenter 问题上，HybridDeepSearcher 并行查询12部电影的时长并找到正确答案（Starman, 115分钟），而 DeepResearcher 先入为主猜测 The Thing、Search-o1 陷入循环查询

亮点与洞察¶

并行+顺序搜索的统一：首次系统性地训练 LRM 区分可并行化和顺序依赖的查询，填补了现有工作的空白
数据集构建巧妙：HDS-QA 的自动构建流水线从 NQ 出发，通过"People Also Ask"引入并行性，设计精巧且可扩展
SFT 优于 RL：仅用 2,111 条轨迹的监督微调就超越了使用 GRPO 的 RL 方法（如 Search-R1、DeepResearcher），说明高质量的混合搜索示范数据极其重要
搜索扩展性：该方法是少数展示出一致测试时搜索扩展能力的工作，性能随计算预算增长而不饱和
训练成本极低：仅需 30 分钟在 8 块 A100 上微调，开销远低于 RL 训练方法

局限与展望¶

仅使用 SFT 训练，未结合偏好优化（DPO/RLHF），可利用 HDS-QA 中的成功和失败轨迹进一步提升
搜索查询摘要依赖外部大模型（Qwen3-32B），增加了系统复杂度和API调用成本
HDS-QA 仅基于 Natural Questions 构建，领域覆盖可能有限
未探索多 Agent 协作搜索的可能性
BrowseComp-50 仅选取了 o3 能解决的50道题，选择偏差可能影响评估公平性

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐