Robust and Diverse Multi-Agent Learning via Rational Policy Gradient¶

会议: NeurIPS 2025
arXiv: 2511.09535
代码: GitHub
领域: 强化学习
关键词: 多智能体强化学习, 对抗优化, 自毁行为, 策略梯度, 合作博弈

一句话总结¶

本文提出理性保持策略优化（RPO）框架和理性策略梯度（RPG）算法，通过引入操纵者智能体和对手塑造技术，在合作和一般和博弈场景中消除对抗优化导致的自毁行为，同时实现策略鲁棒化和多样化。

研究背景与动机¶

在多智能体强化学习（MARL）中，训练鲁棒行为是长期挑战：智能体应能适应其他智能体可能采取的各种策略。

零和博弈中对抗优化的成功：在零和设定中，自博弈（self-play）天然鼓励智能体不断寻找并修复对手策略中的弱点。然而在合作或一般和博弈中，自博弈会主动避免暴露队友的弱点（因为这会损害共享奖励），导致脆弱的策略。

自毁行为问题：如果在合作场景中直接应用对抗优化（即激励最小化他人奖励），对手可以通过拒绝合作甚至主动破坏来轻松达到目标。例如，在一个简单的合作矩阵博弈中，对手只需选择动作 $E$（无论受害者选什么都得到 -1 的奖励），这完全不合理但满足对抗目标。

现有方法的失败：CoMeDi 等方法试图通过混合自博弈和交叉博弈的观测分布来防止自毁，但在某些博弈结构中仍然失败——即使只有单一观测的博弈中自毁仍然发生，因为问题根源不在观测分布。

核心洞察：自毁行为本质上是非理性行为——智能体做出了违背自身利益的选择。因此解决方案应当直接约束智能体保持理性：其策略必须至少是某个可能队友策略的最佳回应。

方法详解¶

整体框架¶

RPG 的核心架构引入"操纵者"（manipulator）智能体：对于每个原始的"基础"智能体，创建一个对应的操纵者。基础智能体只在操纵者环境中训练最大化自身奖励（确保理性），而操纵者通过对手塑造（opponent shaping）间接引导基础智能体的学习方向，使其朝对抗目标优化。训练完成后丢弃操纵者，保留训练后的基础智能体。

关键设计¶

理性保持策略优化（RPO）形式化：对于每个智能体 $i$，给定对抗目标 $O_i(\pi_1, \dots, \pi_m)$，RPO 要求： $\max_{\pi_i} O_i(\pi_1, \dots, \pi_m) \quad \text{s.t.} \quad \exists \pi'_{-i} \in \Pi_{-i} \text{ s.t. } \pi_i \in \text{BR}(\pi'_{-i})$

即：优化对抗目标的同时，策略必须至少是某个共同策略的最佳回应。这保证了智能体的选择是"合理的"——存在某个队友策略使其行为是最优的。

关键性质：在零和博弈中，RPO 约束自动满足（因为最小化对手奖励 = 最大化自己奖励），所以 RPO 是对抗训练在零和设定中的严格泛化。

操纵者与对手塑造机制：将目标分解为两部分：
- 基础智能体目标：$\max_{\pi_i} U(\pi_i, \pi^M_{-i})$（对操纵者做最佳回应，保证理性）
- 操纵者目标：$\max_{\pi^M_{-i}} O_i(\pi_1, \dots, \pi_m)$（通过影响基础智能体的学习来优化对抗目标）

操纵者的梯度更新涉及高阶梯度——通过基础智能体的参数更新步取梯度： $\theta^M_{-i} \leftarrow \theta^M_{-i} + \nabla_{\theta^M_{-i}} O_i(\theta'_1, \dots, \theta'_m)$ 其中 $\theta'_i$ 是基础智能体更新后的参数。

Partner-play 正则化：为防止基础智能体（仅在操纵者环境中训练）在与其他基础智能体评估时出现分布偏移，在训练数据中加入少量基础智能体间的交叉博弈轨迹，用小系数 $\epsilon$ 加权作为辅助损失。
Loaded DiCE 损失：传统 RL 代理损失仅支持一阶梯度，操纵者需要计算高阶梯度。使用 Loaded DiCE（基于 magic box 算子）定义代理损失，支持通过自动微分计算无偏高阶梯度。
五类 RPG 算法：
- AP-RPG：寻找预训练策略中的理性对抗样本
- AT-RPG：鲁棒化学习中的智能体
- PAIRED-RPG：基于遗憾最小化的鲁棒化
- PAIRED-A-RPG：最大化受害者遗憾的对抗攻击
- AD-RPG：学习真正多样化的策略集合 + 生成自动课程

损失函数 / 训练策略¶

操纵者损失（Loaded DiCE）： $$\mathcal{L}^{O_i} = \sum_{e \in E} w_e \sum_t \gamma^t \square(\{a^{t' \leq t}_{j \in \{B,M\}}\}) r^t_e$$

基础智能体损失（标准 RL 代理损失 + partner-play 正则化）： $$\mathcal{L} = \sum_{e \in E} w_e \sum_t \gamma^t \log(\pi(a_t|s_t)) r^t_e$$

算法每轮先进行 $N$ 步前瞻更新基础智能体（对操纵者做最佳回应），然后在更新后的基础智能体间做轨迹采样，最后更新操纵者参数。

实验关键数据¶

主实验：多样性（AD-RPG vs. 基线，Overcooked cramped room）¶

算法	自博弈奖励	交叉博弈奖励	自毁行为？
CoMeDi	220	2	是（站在盘子分发器前阻挡队友）
AD（原始对抗多样性）	240	1.25	是
AD-RPG	240	240	否

AD-RPG 在自博弈中达到与基线相同的高奖励，但交叉博弈奖励也保持高水平，证明 cramped room 布局实际上几乎不存在真正的多样性——低交叉博弈分数只能通过自毁实现。

鲁棒性评估（对抗攻击下的受害者表现，STORM 环境）¶

受害者训练算法	训练奖励	PAIRED-A-RPG攻击	AP-RPG攻击
PAIRED	0.13	0.50	0.42
PAIRED-RPG	0.93	0.84	0.85
AT（自毁失败）	0.0	0.0	0.0
AT-RPG	0.65	0.72	0.88
AD-RPG	0.98	0.25	0.96
Self-play	0.98	0.16	0.96

RPG 系列算法训练的策略在面对理性对抗攻击时保持高奖励，而非 RPG 方法因训练时的自毁而完全失败。

消融实验 / 跨环境泛化¶

环境	SP (低熵)	SP (高熵)	AD	AD-RPG
Forced Coordination	低交叉博弈	低交叉博弈	自毁	高交叉博弈
Counter Circuit	低	低	自毁	显著更高
Hanabi(3)	中	较高	自毁	最高
Hanabi(4)	中	较高	自毁	最高

AD-RPG 在所有环境中都避免了自毁并保持高鲁棒性。

关键发现¶

AD-RPG 完全消除了现有对抗多样性算法中的自毁行为——这是该领域一个悬而未决的开放问题
RPG 找到的对抗样本是"理性"的——如 Overcooked 中发现受害者假设智能体按顺时针绕行，对手按逆时针移动（合理但不兼容）
PAIRED-RPG 和 AT-RPG 训练的策略在对抗攻击下表现最佳
Partner-play 正则化对防止分布偏移至关重要

亮点与洞察¶

理性约束的优雅形式化：用"存在某个队友策略使我是最佳回应"来定义理性，简洁有力且避免了自毁问题的根源
操纵者架构的巧妙设计：基础智能体只需关注理性（最大化自身奖励），对抗目标的复杂性完全由操纵者承担
零和设定的严格泛化：在零和博弈中 RPO 自动退化为标准对抗训练，保证了方法的通用性
一个框架统一五种算法：AP-RPG、AT-RPG、PAIRED-RPG、PAIRED-A-RPG、AD-RPG 均为 RPG 的实例化

局限与展望¶

高阶梯度计算引入额外开销（AD-RPG 比 AD 慢约 6 倍），需要较大 batch size 来稳定估计
尚无形式化的收敛性保证——不确定 RPG 在何种条件下一定能找到 RPO 的解
操纵者和基础智能体在高维问题中的梯度估计方差可能很大
目前仅在相对简单的环境（矩阵博弈、Overcooked、STORM、简化 Hanabi）中验证，尚需更复杂领域的测试

评分¶

新颖性: ⭐⭐⭐⭐⭐ 理性约束框架完全解决了自毁问题这一核心挑战，理论贡献显著
实验充分度: ⭐⭐⭐⭐ 四种环境 + 五种算法变体 + 鲁棒性/多样性/对抗样本三个维度的全面验证
写作质量: ⭐⭐⭐⭐⭐ 矩阵博弈示例直观，理论压缩凝练，图形语言设计精巧
价值: ⭐⭐⭐⭐⭐ 解决了多智能体对抗优化中持续多年的核心开放问题，具有深远影响