Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization¶

日期: 2026-03-03
arXiv: 2603.02701
代码: 无
领域: LLM对齐
关键词: 多智能体拓扑, GRPO, 图优化, 信用分配, 通信结构

一句话总结¶

Graph-GRPO 将 Group Relative Policy Optimization 引入多智能体系统的通信拓扑优化，通过组内相对优势估计和边级别信用分配，解决了传统绝对奖励方法在简单任务上的虚假强化和信用分配模糊问题，在 6 个基准上达到 92.45% 平均准确率。

领域现状：LLM 多智能体系统（MAS）的通信拓扑决定了协作效率。从静态结构（链、树、全连接）到动态生成（G-Designer、EIB-LEARNER），拓扑建模不断进步。
现有痛点：(1) 高梯度方差——简单问题上任何拓扑都能答对（reward=1），非信息性正奖励虚假强化冗余边；困难问题上任何拓扑都失败（reward=0），梯度消失。(2) 信用分配问题——成功时所有边获得同等奖励，无法区分关键连接和冗余连接。
核心矛盾：REINFORCE 用单样本绝对奖励估计梯度，既受任务难度方差干扰，又无法做细粒度信用分配——这是离散结构搜索中 RL 的固有困难。
切入角度：借鉴 DeepSeekMath 的 GRPO 思想——对同一查询采样一组拓扑，用组内相对表现替代绝对奖励。同时引入边级别的条件成功率做细粒度信用分配。
核心 idea 一句话：对每个查询采样一组拓扑并计算边的相对优势，替代单样本绝对奖励，实现稳定且细粒度的拓扑优化。

GAT 编码策略网络生成概率连接矩阵 → DAG 掩码保证无环 → 伯努利采样得到 K 个拓扑 → 执行后计算边级条件成功率 → GRPO 归一化得到边优势 → 更新策略。

策略网络（沿用 G-Designer）：
- MiniLM 编码 agent 角色 + 查询得到节点特征
- 3 层 GAT 消息传递更新嵌入
- 双线性内积 + DAG 掩码 + Sigmoid 输出连接概率 \((P_\theta)_{ij}\)
- 推理时：\(P_{ij} > 0.5\) 则保留边
组采样与边级信用分配：
- 对每个查询采样 \(K=16\) 个拓扑 \(\{\mathcal{G}_1, ..., \mathcal{G}_K\}\)
- 计算边 \(e_{ij}\) 的条件成功率：\(S_{ij} = \frac{\sum_k \mathbb{I}(e_{ij} \in \mathcal{G}_k) \cdot r_k}{\sum_k \mathbb{I}(e_{ij} \in \mathcal{G}_k) + \epsilon}\)
- 直觉：如果某条边在成功拓扑中频繁出现、在失败拓扑中较少出现，它就是关键路径
GRPO 归一化：
- 边优势 \(A_{ij} = (S_{ij} - \mu_S) / (\sigma_S + \epsilon)\)
- 效果：简单任务中所有边的 \(S_{ij}\) 都高 → \(\mu_S\) 也高 → 优势趋零 → 阻止虚假强化
- 困难任务中 \(S_{ij}\) 分化明显 → 关键边获得正优势，冗余边被抑制
- KL 散度约束防止策略过度偏离参考分布

方法	MMLU	GSM8K	AQuA	HumanEval	平均
CoT	81.69	86.50	73.58	74.67	82.84
G-Designer	86.92	93.80	81.60	88.33	90.04
EIB-LEARNER	88.90	95.20	83.49	89.15	91.38
Graph-GRPO	90.12	96.10	84.21	91.25	92.45

配置	MMLU	GSM8K	HumanEval	平均
Graph-GRPO (边级)	90.12	96.10	91.25	92.49
图级 GRPO	88.54	94.40	89.07	90.67
差值	-1.58	-1.70	-2.18	-1.82