跳转至

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

日期: 2026-03-03
arXiv: 2603.02701
代码: 无
领域: LLM对齐
关键词: 多智能体拓扑, GRPO, 图优化, 信用分配, 通信结构

一句话总结

Graph-GRPO 将 Group Relative Policy Optimization 引入多智能体系统的通信拓扑优化,通过组内相对优势估计和边级别信用分配,解决了传统绝对奖励方法在简单任务上的虚假强化和信用分配模糊问题,在 6 个基准上达到 92.45% 平均准确率。

研究背景与动机

  1. 领域现状:LLM 多智能体系统(MAS)的通信拓扑决定了协作效率。从静态结构(链、树、全连接)到动态生成(G-Designer、EIB-LEARNER),拓扑建模不断进步。
  2. 现有痛点:(1) 高梯度方差——简单问题上任何拓扑都能答对(reward=1),非信息性正奖励虚假强化冗余边;困难问题上任何拓扑都失败(reward=0),梯度消失。(2) 信用分配问题——成功时所有边获得同等奖励,无法区分关键连接和冗余连接。
  3. 核心矛盾:REINFORCE 用单样本绝对奖励估计梯度,既受任务难度方差干扰,又无法做细粒度信用分配——这是离散结构搜索中 RL 的固有困难。
  4. 切入角度:借鉴 DeepSeekMath 的 GRPO 思想——对同一查询采样一组拓扑,用组内相对表现替代绝对奖励。同时引入边级别的条件成功率做细粒度信用分配。
  5. 核心 idea 一句话:对每个查询采样一组拓扑并计算边的相对优势,替代单样本绝对奖励,实现稳定且细粒度的拓扑优化。

方法详解

整体框架

GAT 编码策略网络生成概率连接矩阵 → DAG 掩码保证无环 → 伯努利采样得到 K 个拓扑 → 执行后计算边级条件成功率 → GRPO 归一化得到边优势 → 更新策略。

关键设计

  1. 策略网络(沿用 G-Designer)

    • MiniLM 编码 agent 角色 + 查询得到节点特征
    • 3 层 GAT 消息传递更新嵌入
    • 双线性内积 + DAG 掩码 + Sigmoid 输出连接概率 \((P_\theta)_{ij}\)
    • 推理时:\(P_{ij} > 0.5\) 则保留边
  2. 组采样与边级信用分配

    • 对每个查询采样 \(K=16\) 个拓扑 \(\{\mathcal{G}_1, ..., \mathcal{G}_K\}\)
    • 计算边 \(e_{ij}\) 的条件成功率:\(S_{ij} = \frac{\sum_k \mathbb{I}(e_{ij} \in \mathcal{G}_k) \cdot r_k}{\sum_k \mathbb{I}(e_{ij} \in \mathcal{G}_k) + \epsilon}\)
    • 直觉:如果某条边在成功拓扑中频繁出现、在失败拓扑中较少出现,它就是关键路径
  3. GRPO 归一化

    • 边优势 \(A_{ij} = (S_{ij} - \mu_S) / (\sigma_S + \epsilon)\)
    • 效果:简单任务中所有边的 \(S_{ij}\) 都高 → \(\mu_S\) 也高 → 优势趋零 → 阻止虚假强化
    • 困难任务中 \(S_{ij}\) 分化明显 → 关键边获得正优势,冗余边被抑制
    • KL 散度约束防止策略过度偏离参考分布

实验关键数据

主实验(6 个基准)

方法 MMLU GSM8K AQuA HumanEval 平均
CoT 81.69 86.50 73.58 74.67 82.84
G-Designer 86.92 93.80 81.60 88.33 90.04
EIB-LEARNER 88.90 95.20 83.49 89.15 91.38
Graph-GRPO 90.12 96.10 84.21 91.25 92.45

消融实验

配置 MMLU GSM8K HumanEval 平均
Graph-GRPO (边级) 90.12 96.10 91.25 92.49
图级 GRPO 88.54 94.40 89.07 90.67
差值 -1.58 -1.70 -2.18 -1.82

关键发现

  • 边级别优势比图级别优势提升 1.82%——细粒度信用分配的直接证据
  • Graph-GRPO 自然学到稀疏拓扑(低 token 消耗),无需显式剪枝约束
  • 训练稳定性显著优于 REINFORCE 基线,收敛更快
  • 在代码生成(HumanEval)上提升最大(+2.1%),说明结构化推理任务更受益于好的拓扑

亮点与洞察

  • GRPO 从文本推理到离散结构搜索的迁移是精彩的思路:组内相对比较天然处理了任务难度不均匀的问题
  • 条件成功率作为信用分配的设计简洁有效:本质是反事实推理——"有这条边 vs 没有"对成功率的影响
  • "非信息性批次阻断"机制(图 1 的核心洞察):简单问题中所有拓扑都对 → 优势趋零 → 不更新,避免了最常见的噪声源

局限性 / 可改进方向

  • K=16 的组采样在推理密集任务中引入额外 LLM 调用成本
  • 仅用 GPT-3.5-Turbo 作为骨干,更强模型是否仍有拓扑优化空间未知
  • DAG 约束限制了拓扑表达力,环形结构(如 debate)无法表示
  • 训练需要每条样本执行 K 次完整多智能体推理,计算成本高

相关工作与启发

  • vs EIB-LEARNER:共享 G-Designer 的架构但用 GRPO 替代 REINFORCE 优化,证明优化方法比架构更关键
  • vs AgentPrune/AgentDropout:剪枝方法从全连接图出发做减法,Graph-GRPO 从概率矩阵出发做加法,更灵活
  • 启发:GRPO 的组内比较思路可推广到任何需要离散结构搜索的 RL 场景

评分

  • 新颖性: ⭐⭐⭐⭐ GRPO 到图结构搜索的迁移新颖,但核心仍是 GRPO 的应用
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个基准 + 边/图级消融 + token效率分析
  • 写作质量: ⭐⭐⭐⭐ 动机分析清晰,图 1 的说明力很强
  • 价值: ⭐⭐⭐⭐ 为 MAS 拓扑优化提供了更稳定的训练范式