PRIME: Planning and Retrieval-Integrated Memory for Enhanced Reasoning¶

会议: AAAI 2026
arXiv: 2509.22315
代码: 有
领域: LLM推理 / Agent
关键词: 双系统推理, 快思考慢思考, 检索增强, 多Agent, 规划

一句话总结¶

受双系统认知理论启发，提出PRIME多Agent推理框架——Quick Thinking Agent（System 1）快速生成直觉答案，Reflection Agent评估可信度，不确定时触发System 2的6个专门化Agent（规划/搜索/阅读/假设/整合/决策）进行深度知识检索推理，使开源LLaMA 3在医学/多跳QA上接近GPT-4o性能。

研究背景与动机¶

领域现状：LLM推理增强方法包括CoT、RAG、Agent框架等。但多数方法对所有问题统一应用慢推理，浪费计算资源。
现有痛点：
简单问题不需要深度推理——用System 2处理"法国首都是什么"是浪费
现有RAG方法不做显式规划——检索什么、何时检索缺乏策略性
单Agent推理缺乏专门化——同一模型既要搜索又要推理又要验证
核心矛盾：深度推理有效但昂贵——需要智能地选择何时启用。
本文要解决什么？ 设计自适应触发深度推理的多Agent框架。
切入角度：Kahneman的双系统理论——System 1快速直觉，System 2慢速分析。用反思Agent决定何时切换。
核心idea一句话：System 1快速回答 + Reflection自评 + System 2六Agent深度推理 = 高效且准确。

方法详解¶

整体框架¶

输入问题 → Quick Thinking Agent（分解子问题、顺序回答）→ Reflection Agent（自评可信度）→ 若可信则输出 → 若不可信则触发System 2：Planning Agent（制定推理计划）→ Hypothesis Agent（生成假设）→ Search Agent（检索证据）→ Reading Agent（精读提取）→ Integration Agent（整合证据）→ Decision Agent（最终判断）。

关键设计¶

Quick Thinking Agent（System 1）:
做什么：快速生成直觉答案
核心思路：将问题分解为子问题并顺序回答，不做外部检索
设计动机：大部分问题System 1就能处理——避免不必要的昂贵推理
Reflection Agent（切换门控）:
做什么：评估System 1输出的可信度
核心思路：显式自反省——检查答案是否有逻辑漏洞、不确定性、或依赖未验证的假设
设计动机：关键创新——决定何时从快思考切换到慢思考
System 2六Agent推理管线:
做什么：深度知识检索和多步推理
六Agent分工：Planning（制定推理路径）→ Hypothesis（假设生成）→ Search（外部检索）→ Reading（证据精读）→ Integration（多源整合）→ Decision（最终判断）
设计动机：每个Agent专注一个认知子任务——规划≠搜索≠推理

损失函数 / 训练策略¶

无需训练——纯prompt-based Agent协调
基座模型：LLaMA 3（8B/70B）

实验关键数据¶

医学推理任务¶

模型/方法	MedQA	MedMCQA	MMLU-Medical	平均
LLaMA3.1 8B + CoT	61.51	55.15	71.63	62.76
LLaMA3.1 8B + MedRAG	63.00	56.87	74.56	64.81
LLaMA3.1 8B + Search-O1	73.13	62.13	79.16	71.47
LLaMA3.1 8B + PRIME	76.91	67.49	83.56	75.99
LLaMA3.3 70B + Search-O1	83.17	73.11	87.23	81.17
LLaMA3.3 70B + PRIME	87.51	78.94	92.74	86.39
GPT-4	83.97	69.88	89.44	81.10
GPT-4o	85.55	74.71	90.45	83.57

PRIME使LLaMA3.3 70B达到86.39%平均分，超过GPT-4（81.10%）和GPT-4o（83.57%）

多跳推理任务¶

方法	Musique F1	2Wiki F1	HotpotQA F1
Naive RAG	30.52	38.22	40.06
Search-O1	41.94	74.24	54.81
PRIME	48.81	79.81	60.68

消融¶

配置	效果
仅System 1	简单题好，难题差——80%以上问题回答正确但剩余20%严重幻觉
仅System 2（全部深度推理）	准确但慢——计算资源浪费
PRIME（自适应切换）	准确且高效——约60%问题System 1即可处理

关键发现¶

LLaMA3.3 70B + PRIME超过GPT-4o（86.39 vs 83.57）——多Agent框架弥补了开闭源差距
LLaMA3.1 8B + PRIME（75.99）超过GPT-4o-mini（74.59）——即使8B模型也能受益
约60%问题System 1即可处理——节省大量计算资源
Reflection Agent的质量是关键——错误触发System 2浪费资源，遗漏则答案出错
在多跳推理上PRIME比Search-O1平均高6-7个F1点——知识检索+假设测试的组合优势明显

亮点与洞察¶

双系统理论在LLM中的忠实实现——不是隐喻而是实际的架构设计
6 Agent的专门化分工比单Agent深度推理更可靠
对推理效率有直接指导：不是所有问题都需要深思

局限性 / 可改进方向¶

Reflection Agent可能误判——假阴性（难题没触发System 2）和假阳性（简单题误触发）都影响效率
6 Agent的通信开销在简单问题上不划算——需进一步分析System 2的成本
仅在QA任务上验证，创意写作/代码生成等场景效果未知
Search Agent依赖外部检索质量——检索失败会导致整个System 2失效
没有持久记忆机制——同类问题每次都要重新推理

评分¶

新颖性: ⭐⭐⭐⭐ 双系统+多Agent的忠实实现
实验充分度: ⭐⭐⭐⭐ 多领域QA+消融
写作质量: ⭐⭐⭐⭐ 认知科学动机清晰
价值: ⭐⭐⭐⭐ 对高效LLM推理有实用价值