Solving Zero-Sum Convex Markov Games¶
会议: ICML 2025
arXiv: 2506.16120
代码: 无
领域: 强化学习 / 博弈论
关键词: convex Markov games, Nash equilibrium, policy gradient, hidden convexity, nonconvex-pPL
一句话总结¶
本文首次为两人零和凸马尔可夫博弈(cMG)中的独立策略梯度方法提供了全局收敛到Nash均衡的理论保证,通过非凸正则化将问题化归为非凸-pPL min-max优化,并设计了嵌套/交替策略梯度算法。
研究背景与动机¶
领域现状: 多智能体强化学习(MARL)通常建模为马尔可夫博弈(MG),但传统MG要求效用函数可跨时间步加性分解。凸马尔可夫博弈(cMG)允许效用函数是状态-动作占用度量的凸函数,模型表达力更强,可涵盖创造性博弈策略发现、语言模型多步对齐、机器人多智能体探索等场景。
现有痛点: cMG打破了Bellman一致性——无法定义状态值函数和动作值函数,因而传统的基于值迭代/动态规划的MARL算法(如Q-learning变种)完全不适用。甚至Nash均衡的存在性证明都需要超越经典的Brouwer/Kakutani不动点定理。
核心矛盾: 策略空间上的效用函数天然非凸,而即使在最简单的正规形式博弈(cMG的单状态特例)中,梯度方法就会循环、产生混沌轨迹。非凸-非凹的鞍点计算在一般情况下是困难的。
本文目标: 策略梯度方法能否在零和cMG中收敛?
切入角度: 作者发现cMG中效用函数具有"隐凸性"(hidden convexity)——它是占用度量的凸函数复合一个可逆映射。利用这一结构,加上非凸正则化,可以使问题满足proximal Polyak-Łojasiewicz(pPL)条件。
核心idea: 通过占用度量空间的正则化把零和cMG化归为约束域上的非凸-pPL min-max优化问题,然后设计嵌套/交替梯度迭代保证收敛。
方法详解¶
整体框架¶
输入:两人零和cMG \(\Gamma = (\mathcal{S}, \mathcal{A}, \mathcal{B}, \mathbb{P}, F, \gamma, \varrho)\),其中maximizer选策略 \(x\),minimizer选策略 \(y\),效用 \(U(x,y) = F(\lambda_1(x,y), \lambda_2(x,y))\) 定义在占用度量上。输出:\(\epsilon\)-近似Nash均衡策略对。
方法分两步:(1) 通过正则化将cMG化归为NC-pPL min-max优化;(2) 针对NC-pPL问题设计收敛算法。
关键设计¶
-
非凸正则化 (Hidden-Strongly-Convex Regularization):
- 功能:在原始效用 \(U(x,y)\) 上加一个关于maximizer占用度量的正则项 \(-\frac{\mu}{2}\|\lambda_2(x,y)\|^2\),得到扰动效用 \(U^\mu(x,y)\)
- 核心思路:\(U\) 对每个玩家的占用度量是凹的(隐凹性),加上 \(\mu\)-强凸正则后变为隐强凹,从而满足pPL条件
- 设计动机:pPL条件保证了最优响应映射 \(y^\star(x)\) 关于 \(x\) 是Lipschitz连续的(而非通常的 \(\frac{1}{2}\)-Hölder连续),这是策略梯度方法稳定迭代的关键
-
嵌套策略梯度 (Nest-PG, Algorithm 1):
- 功能:内层循环用projected gradient ascent逼近maximizer的最优响应,外层循环用projected gradient descent更新minimizer
- 核心思路:利用NC-pPL结构,内层以线性速率收敛到近似最优响应,外层利用 \(\Phi(x) = \max_y U^\mu(x,y)\) 的梯度主导性质保证下降
- 与之前方法的区别:无需精确求解内层问题,允许不精确梯度,各玩家独立学习无需共享策略
-
交替策略梯度 (Alt-PGDA, Algorithm 2):
- 功能:两个玩家交替执行投影梯度步,但使用不对称步长(minimizer步长远小于maximizer步长)
- 核心思路:通过时间尺度分离(step-size \(\alpha_x \ll \alpha_y\)),让maximizer的响应"追踪"minimizer的慢变化,同样利用pPL条件的Lipschitz最优响应性质保稳定
- 设计动机:比嵌套方法更简单、更易实现,且同样对随机/不精确梯度鲁棒
损失函数 / 训练策略¶
目标是计算 \(U^\mu\) 的鞍点:\(\min_{x \in \mathcal{X}} \max_{y \in \mathcal{Y}} U^\mu(x,y)\)。策略梯度通过REINFORCE式估计量(Definition 3)从采样轨迹中获得,需要 \(\epsilon\)-greedy策略保证充分探索。最终Nash均衡的近似误差由正则化强度 \(\mu\) 控制。
实验关键数据¶
主实验(理论结果)¶
本文为纯理论工作,无数值实验。主结论为收敛复杂度:
| 算法 | 收敛到 \(\epsilon\)-NE 的迭代/样本复杂度 | 特点 |
|---|---|---|
| Nest-PG | $\text{poly}(1/\epsilon, | \mathcal{S} |
| Alt-PGDA | $\text{poly}(1/\epsilon, | \mathcal{S} |
理论贡献对比¶
| 贡献 | 意义 |
|---|---|
| Best-response Lipschitz连续性 (Thm 4.1) | 首次证明在隐凸/NC-pPL情况下最优响应映射的Lipschitz性 |
| NC-pPL min-max全局收敛 (Thm 4.3) | 首个约束域上非凸-pPL函数的随机嵌套/交替GDA收敛保证 |
| cMG Nash均衡计算 (主定理) | 首个零和cMG的可证收敛独立策略梯度方法 |
关键发现¶
- 隐凸性 + 正则化 = pPL条件,这是统一分析的关键链条
- 两个算法都允许不精确梯度,这对独立学习至关重要(因为正则项依赖双方策略,精确梯度需要策略共享)
- 交替方法的步长比例需要精心设计,过大的比例会导致发散
亮点与洞察¶
- 隐凸性到pPL的桥梁:这个归约思路非常巧妙——cMG效用函数看似非凸非凹,但通过占用度量视角发现其凸结构,再通过正则化激活这一结构得到梯度主导性质。这为其他具有隐凸结构的优化问题提供了方法论模板。
- 独立学习保证:两个玩家无需交换策略信息,仅需各自估计梯度并更新,这符合MARL中去中心化学习的实际需求。
- 优化理论的独立贡献:约束域上NC-pPL和双侧pPL的min-max收敛保证本身在优化理论中是新结果,可迁移到其他非凸-非凹min-max优化场景(如GAN训练的理论分析)。
局限与展望¶
- 纯理论工作,缺少实验验证;实际cMG场景中的数值表现未知
- 需要知道问题参数(Lipschitz常数、强凸参数等)来设置步长,实际中可能难以获取
- 复杂度关于状态/动作空间大小是多项式的,未考虑函数逼近(大规模场景)
- 正则化引入了额外的近似误差,\(\mu \to 0\) 时收敛变慢
相关工作与启发¶
- vs 传统MG算法 (Jin et al., 2021; Wei et al., 2021): 它们依赖值迭代和Bellman一致性,不适用于cMG;本文完全基于策略梯度绕开这些限制
- vs cMDP优化 (Kalogiannis et al., 2024): 单智能体cMDP中已有隐凸性利用,但多智能体情况下占用度量耦合导致Hölder连续性降级;本文通过策略空间上的pPL条件恢复了Lipschitz性
- vs Nesterov光滑化 (Nesterov, 2005): 本文方法可视为Nesterov非光滑最小化在隐凸非凸场景的推广
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次解决cMG中策略梯度收敛问题,隐凸性到pPL的归约思路原创性强
- 实验充分度: ⭐⭐ 纯理论工作,无实验验证
- 写作质量: ⭐⭐⭐⭐ 技术概览清晰,Section 1.1的技术路线图尤其有帮助
- 价值: ⭐⭐⭐⭐ 对MARL和min-max优化理论都有重要推进,开辟了cMG算法研究的新方向
- 总体: ⭐⭐⭐⭐ 扎实的理论贡献,为后续cMG实证研究奠定了基础
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [AAAI 2026] Perturbing Best Responses in Zero-Sum Games
- [ICML 2025] Learning Utilities from Demonstrations in Markov Decision Processes
- [NeurIPS 2025] Certifying Concavity and Monotonicity in Games via Sum-of-Squares Hierarchies
- [ICML 2025] Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination
- [ICML 2025] Pessimism Principle Can Be Effective: Towards a Framework for Zero-Shot Transfer RL