OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval¶

会议: AAAI2026
arXiv: 2508.16438
代码: Ameame1/OPERA
领域: human_understanding
关键词: RAG, multi-hop retrieval, reinforcement-learning, GRPO, multi-agent

一句话总结¶

提出 OPERA 框架，通过 Goal Planning Module 和 Reason-Execute Module 的分层架构，结合专为多 agent 设计的 MAPGRPO 训练算法，大幅提升 reasoning-oriented multi-hop retrieval 性能。

背景与动机¶

领域现状¶

领域现状：现有 RAG 系统在复杂 multi-hop 问题上表现不佳，主要瓶颈在于 retrieval 与 reasoning 的弱耦合

现有痛点¶

现有痛点：静态 plan（如 PlanRAG）无法动态适应检索过程中的新情况

核心矛盾¶

核心矛盾：单一 LLM 同时负责 planning 和 execution，导致可靠性受限

解决思路¶

解决思路：已有 RL 方法（如 BGM）仅优化 retriever-LLM 间隙，未实现 agent 级别的精细 credit assignment

解决思路¶

本文目标：如何在 RAG 框架中实现 reasoning 与 retrieval 的深度耦合，使系统能够针对复杂 multi-hop 问题进行有效的计划分解、自适应检索和精准过滤？

方法详解¶

整体框架¶

OPERA 解耦为两层： 1. Goal Planning Module (GPM): Plan Agent 将复杂问题分解为子目标 \(\mathcal{P}=\{p_1,\dots,p_m\}\)，子目标间通过 placeholder 建立依赖 2. Reason-Execute Module (REM): Analysis-Answer Agent 进行信息充分性判断 \(\phi \in \{0,1\}\) 和答案抽取；Rewrite Agent 在信息不足时重写 query 以改善后续检索 3. Trajectory Memory Component (TMC): 记录全部操作轨迹，增强可解释性

关键设计：MAPGRPO¶

基于 GRPO 扩展为 Multi-Agents Progressive Group Relative Policy Optimization： - 三个 agent 按顺序训练，每个 agent 使用异构 reward function - Plan Agent reward: \(r_{\text{plan}} = \lambda_1 f_{\text{logic}} + \lambda_2 f_{\text{struct}} + \lambda_3 f_{\text{exec}}\) - Analysis-Answer Agent reward: \(r_{\text{ana}} = \alpha \cdot \mathbb{I}[\phi=\phi^*] + \beta \cdot \text{EM}(a_i,a_i^*) + \gamma \cdot f_{\text{format}}\) - Rewrite Agent reward: \(r_{\text{rew}} = \omega_1 \sqrt{\text{NDCG@}k} + \omega_2 f_{\text{format}}\) - High-Score Sample Selection: 每个 group 中注入一个预打分的高质量样本 \(c_{\text{best}}\)，缓解 reward sparsity，降低 policy gradient variance

实验关键数据¶

主实验¶

方法	HotpotQA EM	2WikiMHQA EM	Musique EM
Adaptive-RAG (SFT)	45.7%	30.1%	24.3%
BGM (RL)	41.5%	44.3%	19.6%
OPERA (MAPGRPO)	57.3%	60.2%	39.7%

Musique 上相对最佳 baseline 提升 63.4%
Ablation: 移除 Plan Agent → EM 从 39.7% 降至 17.1%（低于无训练 CoT 的 21.2%）
Out-of-domain: 在 NQ（单跳）上 MAPGRPO 达 36.6% EM，SFT 反而降至 19.5%

亮点与洞察¶

架构设计 > 训练方法：移除 Plan Agent 后性能崩塌，证明分层架构是核心贡献
MAPGRPO 的 expert injection 策略显著降低 policy gradient variance
框架在 out-of-domain 任务（单跳 QA）也能自适应，RL 训练不会过拟合固定模式

局限与展望¶

Rewrite Agent 训练不稳定（条件激活导致 reward 稀疏）
理论仅保证局部收敛，Musique EM 仍 < 40%
推理延迟较高，Analysis-Answer Agent latency 波动大
暂未验证在更大参数量 LLM（>7B）上的效果
对模糊分解和长推理链仍有困难

评分¶

新颖性: ⭐⭐⭐⭐ — 多 agent 架构 + MAPGRPO 训练方法具有原创性
实验充分度: ⭐⭐⭐⭐ — 三个主流 benchmark + ablation + OOD 实验
写作质量: ⭐⭐⭐⭐ — 结构清晰，理论分析较完整
价值: ⭐⭐⭐⭐ — 对复杂 RAG 系统设计有实际指导意义

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval¶

一句话总结¶

背景与动机¶

领域现状¶

现有痛点¶

核心矛盾¶

解决思路¶

解决思路¶

方法详解¶

整体框架¶

关键设计：MAPGRPO¶

实验关键数据¶

主实验¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

相关工作与启发¶

评分¶

相关论文¶

维度	OPERA	Adaptive-RAG	ReAct	BGM
Planning	动态子目标	按复杂度路由	无显式 plan	无
Retrieval	Rewrite Agent 自适应	固定策略	推理-行动循环	RL 桥接
训练	MAPGRPO (role-specific)	SFT	无训练	GRPO
可解释性	TMC 轨迹记录	无	部分	无