PaSa: An LLM Agent for Comprehensive Academic Paper Search¶

会议: ACL2025
arXiv: 2501.10120
代码: bytedance/pasa
领域: llm_agent
关键词: 学术论文搜索, LLM Agent, 强化学习, 引用网络, 论文检索

一句话总结¶

PaSa 是一个基于 LLM 的学术论文搜索智能体，通过自主调用搜索工具、阅读论文和导航引用网络来实现全面准确的学术文献检索，经 RL 训练后在真实场景中大幅超越 Google Scholar 和 GPT-4o。

研究背景与动机¶

学术论文搜索是科研的核心任务，但也是特别具有挑战性的信息检索问题。它要求长尾专业知识、综述级别的全面覆盖以及处理细粒度查询的能力。例如查询 "哪些研究使用基于 UCB 的算法聚焦于非平稳强化学习？"——Google Scholar 等通用搜索工具对此类复杂查询往往力不从心。

研究者通常不仅使用搜索工具，还会阅读相关论文、检查引用关系来执行全面的文献调研。这一过程耗时巨大。尽管 LLM 在信息检索增强方面已有探索（如查询改写），但将 LLM 作为自主 Agent 来模拟人类文献调研的完整行为——搜索、阅读、引用追踪——仍是空白。

方法详解¶

整体框架¶

PaSa 系统由两个 LLM Agent 组成（基于 Qwen2.5-7B）：

Crawler（爬取器）：负责自主收集论文，最大化召回率
Selector（选择器）：负责精确判断论文是否满足查询需求，强调精确率

Crawler 的设计¶

Crawler 执行 token 级别的马尔可夫决策过程（MDP），动作空间对应 LLM 词表。注册了三个函数：

函数	功能
[Search]	生成搜索查询，调用搜索工具，将结果加入论文队列
[Expand]	生成子章节名称，将该章节引用的所有论文加入队列
[Stop]	重置上下文为用户查询+队列中下一篇论文

工作流程：Crawler 接收用户查询后，可以反复执行 Search（用不同查询多次搜索）、读取论文后执行 Expand（追踪引用网络发现更多相关论文）、或 Stop（切换到下一篇论文）。探索深度限制为 3 层。

Crawler 的训练¶

两阶段训练：

阶段 1：模仿学习 - 为 5,000 个查询生成示范轨迹，进行监督微调 - 学习率 1e-5，batch size 4，1个 epoch

阶段 2：强化学习（Session-Level PPO）

面临的挑战： - 稀疏奖励：AutoScholarQuery 中的论文集仅是实际合格论文的子集 - 长轨迹：完整轨迹可能涉及数百篇论文，超出 LLM 上下文长度

解决方案——Session-Level PPO：

将轨迹划分为一系列 session，每个 session 以 [Stop] 结束。定义两类初始状态：$S_q$（仅含查询）和 $S_{q+p}$（含查询和论文）。

奖励设计： $$r(s_t, a_t) = \alpha \times \sum_{i=1}^{n_t} \mathbb{I}(q, p_i, t) - c(a_t)$$

其中 $\mathbb{I}$ 判断论文是否匹配查询。为缓解稀疏奖励，使用 Selector 作为辅助奖励模型——当 Selector 判定论文满足查询或论文在标注集中时，给予正奖励。

回报估计结合 session 内折扣因子 $\gamma_0$ 和跨 session 折扣因子 $\gamma_1$，并加入 per-token KL 惩罚防止过度优化。

Selector 的设计¶

接收查询和论文（标题+摘要），输出： 1. 决策 token（True/False） 2. 推理理由

关键设计：决策 token 前置于理由，使 Selector 在 Crawler 训练时可作为单 token 奖励模型。优化方式为模仿学习。

数据集构建¶

AutoScholarQuery¶

从 ICLR 2023、ICML 2023、NeurIPS 2023、ACL 2024、CVPR 2024 论文的 Related Work 章节构建
用 GPT-4o 从引用关系中生成细粒度学术查询
含 33,511 / 1,000 / 1,000 训练/验证/测试实例
人工评估：94% 查询合格，93.7% 论文匹配

RealScholarQuery¶

50 个真实世界学术查询
AI 研究者在 PaSa demo 上提交的真实查询
专业标注者（顶尖大学教授）审核所有候选论文
每个查询平均审核 76 篇候选论文，标注成本 $304/查询
平均每个查询关联 15.82 篇答案论文

实验¶

基线方法¶

Google / Google Scholar（直接搜索）
Google with GPT-4o（GPT-4o 改写查询后搜索）
ChatGPT（搜索增强 GPT-4o）
GPT-o1（无外部搜索）
PaSa-GPT-4o（用 GPT-4o 实现 PaSa Agent）

AutoScholarQuery 主实验¶

方法	Precision	Recall	Recall@20	Recall@50	Recall@100
Google	-	-	0.1568	0.1891	0.2015
Google + GPT-4o	-	-	0.1921	0.2450	0.2683
ChatGPT	0.0507	0.3046	-	-	-
PaSa-GPT-4o	0.1457	0.3873	-	-	-
PaSa-7B	0.1448	0.4834	0.5301	0.6334	0.6947

PaSa-7B 相比 Google + GPT-4o 在 Recall@20 上提升 33.80%，Recall@50 提升 38.83%。

RealScholarQuery 实验¶

方法	Precision	Recall	Recall@20	Recall@50
Google + GPT-4o	-	-	0.2020	0.2573
PaSa-GPT-4o	0.4721	0.3075	-	-
PaSa-7B	0.5146	0.6111	0.5798	0.6563

PaSa-7B 在真实场景中优势更大：比 PaSa-GPT-4o 在 recall 上提升 30.36%，precision 提升 4.25%。

Selector 评估¶

方法	Precision	Recall	F1
GPT-4o	0.96	0.69	0.80
Qwen2.5-7B	1.00	0.38	0.55
PaSa Selector	0.95	0.78	0.85

Selector 的 F1 达到 85%，超越 GPT-4o 的 80%。

消融实验¶

设置	Crawler Recall (Auto)	Recall (Auto)	Crawler Recall (Real)	Recall (Real)
w/o [Expand]	0.3355	0.2536	0.3359	0.2890
w/o RL 训练	0.6556	0.4210	0.4847	0.4115
w/o Selector as RM	0.7041	0.4458	0.5994	0.5148
PaSa-7B	0.7931	0.4834	0.7071	0.6111

移除 [Expand]（引用网络导航）后 Recall 降幅最大（约 50%+），证明引用网络追踪是核心能力
RL 训练带来约 6-20% 的提升
Selector 作为辅助奖励模型也贡献显著

关键发现¶

7B 模型击败 GPT-4o Agent：PaSa-7B 经过 RL 训练后，性能显著超越用 GPT-4o prompt 实现的 PaSa-GPT-4o
引用网络导航至关重要：Crawler 在深入引用网络时发现大量相关论文，即使中间论文与查询不直接相关
合成数据上训练，真实场景泛化：仅在 AutoScholarQuery 上训练，在 RealScholarQuery 上泛化效果更强
Ensemble 进一步提升：采样解码运行两次 Crawler 可额外提升 3-4% Crawler Recall

亮点与洞察¶

模仿人类文献调研的完整流程：不仅搜索，还阅读论文和追踪引用，这种设计远超简单的查询改写范式
Session-Level PPO 的创新：优雅解决了长轨迹和稀疏奖励问题，使 RL 在 Agent 长轨迹任务中可行
Selector 双重角色：既是最终过滤器又是 RL 的辅助奖励模型，单一组件发挥双重作用
高质量数据集：AutoScholarQuery 从顶会论文的 Related Work 构建，数据质量极高；RealScholarQuery 标注成本极高（$304/查询），代表性强
实用价值突出：在线 demo（pasa-agent.ai）已上线，论文搜索是研究者的刚需

局限性¶

搜索工具限于 Google + arXiv，未覆盖其他学术数据库
Crawler 探索深度限制为 3 层，可能遗漏更深层引用网络中的论文
AutoScholarQuery 仅限 AI 领域顶会，对其他学科的泛化性未验证
RealScholarQuery 仅 50 个查询，规模较小
论文获取依赖 ar5iv，部分论文可能无法获取完整内容

评分¶

⭐⭐⭐⭐⭐ — 系统设计优雅、实验全面、实际应用价值极高。Session-Level PPO 的创新解决了 Agent RL 训练的实际难题，7B 模型击败 GPT-4o Agent 的结果令人印象深刻。数据集构建质量高，论文搜索作为科研刚需的场景选择极具影响力。