Group-in-Group Policy Optimization for LLM Agent Training¶

会议: NeurIPS 2025
arXiv: 2505.10978
代码: https://github.com/langfengQ/verl-agent
领域: LLM Agent / 强化学习
关键词: GiGPO, credit assignment, anchor state grouping, multi-turn agent, GRPO

一句话总结¶

GiGPO 通过在 GRPO 的 episode 级分组内嵌套 step 级分组（利用跨轨迹的重复环境状态作为 anchor state），实现了无需额外 rollout 和 critic 模型的细粒度 credit assignment，在 ALFWorld 上比 GRPO 提升 >12%，WebShop 上提升 >9%。

研究背景与动机¶

领域现状：Group-based RL（GRPO、RLOO）在单轮任务（数学推理、代码生成）上非常成功，但这些方法将整条轨迹视为一个整体计算 advantage，无法区分轨迹内各步骤的贡献。
现有痛点：LLM Agent 的交互跨越数十步、数万 token（如 ALFWorld 最多 50 步、20k+ token），reward 通常只在 episode 末端给出。GRPO 给同一 episode 内所有 token 赋予相同的 advantage，好的步骤和差的步骤被同等对待。PPO 虽有 step 级 advantage，但需要额外的 critic 网络，内存开销大。
核心矛盾：想要 step 级 credit assignment，最直接的方法是对每个状态额外 rollout 多个 action 形成对比组——但这需要大量额外 LLM forward passes，计算代价极高。
本文要解决什么：在保持 group-based RL 的 critic-free、低内存、稳定收敛优势的前提下，为多轮 Agent 训练引入细粒度 step 级 credit assignment。
切入角度：关键洞察——同一任务、相同初始状态下采样的 N 条轨迹中，很多环境状态会自然重复出现（如反复访问同一网页、重回同一房间）。这些重复状态可以免费构建 step 级对比组，无需额外 rollout。
核心idea一句话：将跨轨迹的重复环境状态作为 anchor state，用 hashmap 回溯性地构建 step 级分组，从而在不增加 rollout 的条件下获得"group-in-group"的双层 advantage 估计。

方法详解¶

整体框架¶

GiGPO 采用两级 advantage 估计：(1) Episode-level macro advantage \(A_E\)——标准 GRPO 的轨迹间对比；(2) Step-level micro advantage \(A_S\)——通过 anchor state grouping 构建的步骤间对比。最终 advantage 为二者加权和 \(A = A_E + \omega \cdot A_S\)。

关键设计¶

Episode Relative Advantage \(A_E\)：
做什么：捕获轨迹整体质量
核心思路：对 N 条轨迹的总 return \(R(\tau_i) = \sum_t r_t^{(i)}\) 做标准化 \(A_E(\tau_i) = \frac{R(\tau_i) - \text{mean}}{F_{\text{norm}}}\)
设计动机：提供稳定的全局训练信号，鼓励策略发展出连贯的轨迹级行为
Anchor State Grouping：
做什么：免费构建 step 级对比组
核心思路：找出所有轨迹中出现过的唯一环境状态集合 \(\mathcal{U}\)，对每个状态 \(\tilde{s}\) 收集所有从该状态出发的 (action, return) 对形成 step 级 group \(G_S(\tilde{s})\)。实现上只需基于轻量级 hashmap key 匹配，不触发任何额外 LLM 推理
设计动机：Agent 在探索中经常回到相同状态（重访网页、重回房间、重复搜索），这些自然重复提供了 step 级对比的免费数据
Step Relative Advantage \(A_S\)：
做什么：评估同一状态下不同 action 的相对优劣
核心思路：对 step 级 group 内每个 action 计算 discounted return \(R_t^{(i)} = \sum_{k=t}^{T} \gamma^{k-t} r_k^{(i)}\)，然后做组内标准化。例如在 WebShop 中，从相同搜索结果页点击不同商品，成功购买正确商品的 action 获得最高 \(A_S\)
设计动机：相比只用即时 reward \(r_t\)，discounted return 能捕获 action 的长期影响
Similarity-based Grouping（扩展）：
做什么：对环境状态无法精确匹配的场景（如 QA 任务中搜索结果略有不同），用最长匹配子序列相似度 >0.9 进行近似分组

损失函数 / 训练策略¶

标准 PPO-clip + KL 正则的目标函数，advantage 替换为 \(A = A_E + \omega \cdot A_S\)
\(\omega = 1\)（无需调参），\(\gamma = 0.95\)，rollout group size \(N = 8\)
\(F_{\text{norm}}\) 可选 std（标准 GRPO）或 1（RLOO 无偏估计），依任务而定
基于 veRL 框架实现，step-wise multi-turn rollout 避免 context 爆炸

实验关键数据¶

主实验¶

方法	ALFWorld (7B)	WebShop Score (7B)	WebShop Succ (7B)
GPT-4o	48.0	31.8	23.7
Gemini-2.5-Pro	60.3	42.5	35.9
ReAct (7B)	31.2	46.2	19.5
PPO (with critic, 7B)	80.4	81.4	68.7
GRPO (7B)	77.6	79.3	66.1
GiGPO w/o std (7B)	90.2	86.2	75.2
GiGPO w/ std (7B)	90.8	84.4	72.8

GiGPO 超过 GRPO 12.6%（ALFWorld）和 9.1%（WebShop Succ），同时超过需要额外 critic 的 PPO。

消融实验¶

配置	ALFWorld (1.5B)	WebShop Succ (1.5B)
GiGPO full (w/o std)	86.1	67.4
w/o \(A_S\) (只有 episode 级)	显著下降	显著下降
w/o \(A_E\) (只有 step 级)	大幅下降	大幅下降

两级 advantage 都不可或缺。去掉 \(A_E\) 失去全局信号导致策略不连贯，去掉 \(A_S\) 在复杂任务（Cool、Pick2、WebShop）上掉点最严重。

关键发现¶

Step 级 group 覆盖率极高：训练中仅 < 35% 的状态只出现 1 次，超过 65% 的状态跨轨迹重复出现，为 anchor state grouping 提供充足数据
训练动态可解释：初期 group 大小分布右偏（大量重复循环），随训练进展收敛到 6-8（=group size），说明 agent 学会了避免死循环
计算开销极低：anchor state grouping（hashmap）仅 0.01s/iter，step advantage 计算仅 0.53s/iter，总增量 < 0.002% 训练时间
与 DAPO 等正交可组合：GiGPO + DAPO 的 dynamic sampling 在 WebShop 上达 75.0%，超过 DAPO 单独的 66.1%
VLM Agent 也有效：在 Sokoban 和 EZPoints 视觉任务上同样提升

亮点与洞察¶

"免费午餐"设计：跨轨迹重复状态本就存在于 rollout 数据中，GiGPO 只是用 hashmap 回收了这些免费信号，无需任何额外推理。这个思路可以迁移到任何存在状态重访的序列决策问题
层次化 advantage 的精巧平衡：\(A_E\) 提供方向（这条轨迹整体好不好），\(A_S\) 提供细节（这个 action 具体好不好），两者缺一不可。这种"整体+局部"的 credit assignment 范式比纯 trajectory-level 或纯 step-level 都更有效

局限性 / 可改进方向¶

依赖状态精确匹配或高相似度匹配，在高度随机或连续状态空间的环境中 anchor state 可能难以找到
极端情况下（无状态重复）退化为纯 GRPO，这是安全的 fallback 而非失败
\(\omega\) 对不同任务可能有不同最优值，虽然实验显示在 [0.4, 1.2] 范围内较稳健

评分¶

新颖性: ⭐⭐⭐⭐⭐ Anchor state grouping 是一个极其简洁却有效的想法，将"group-based RL 无法做 step 级 credit assignment"的根本限制用零成本方案解决
实验充分度: ⭐⭐⭐⭐⭐ 1.5B/3B/7B 三规模，ALFWorld/WebShop/QA/VLM 四类任务，消融、训练动态、计算开销分析齐全
写作质量: ⭐⭐⭐⭐⭐ Figure 3 的 WebShop step-level group 直观展示非常出色，动机到方法到实验逻辑流畅
价值: ⭐⭐⭐⭐⭐ 开源的 verl-agent 框架、与现有 group-based RL 完全兼容的 plug-in 设计，对 LLM Agent 训练有直接推动作用