Deep (Predictive) Discounted Counterfactual Regret Minimization¶
会议: AAAI 2026 arXiv: 2511.08174 代码: rpSebastian/DeepPDCFR 领域: 强化学习 关键词: 反事实遗憾最小化, 不完全信息博弈, 纳什均衡, 神经网络近似, 方差缩减
一句话总结¶
提出VR-DeepDCFR+和VR-DeepPDCFR+两种无模型神经CFR算法,通过自举累积优势估计、折扣裁剪机制和基线方差缩减,首次将高级表格CFR变体(DCFR+/PDCFR+)有效整合到神经网络近似框架中,在典型不完全信息博弈中实现更快收敛。
研究背景与动机¶
不完全信息博弈(IIG)是建模多玩家隐信息战略交互的基础框架,核心目标是计算(近似)纳什均衡。CFR(反事实遗憾最小化)算法族是求解IIG最成功的方法之一,通过迭代最小化累积反事实遗憾使平均策略收敛到NE。
近年来,表格CFR领域涌现了多种加速收敛的变体: - CFR+:裁剪负累积遗憾 + 线性加权平均策略 - DCFR:对累积遗憾施加折扣 - DCFR+:结合CFR+和DCFR的优势 - PDCFR+:利用遗憾的可预测性加速收敛
然而,现有神经CFR方法(如DeepCFR、DREAM)主要近似vanilla CFR或LinearCFR的行为,无法有效整合更高级的CFR变体。核心困难在于:DCFR+和PDCFR+的更新依赖前一迭代的累积反事实遗憾(bootstrap),而传统neural CFR通过replay buffer中所有迭代的样本从头拟合,两者在架构上不兼容。更深层的问题是:反事实值是由对手到达概率加权的期望效用,这些非归一化值在不同信息集间数量级差异巨大,网络难以有效学习。
方法详解¶
整体框架¶
算法的关键思路:用累积优势(advantage)替代累积反事实遗憾。优势是反事实遗憾除以对手到达概率的结果:\(r_i^t(I,a) = \pi_{-i}^{\sigma^t}(I) \cdot A_i^{\sigma^t}(I,a)\),数值尺度更统一,神经网络更容易学习和泛化。
整体流程(每轮迭代): 1. 用结果采样(outcome sampling)收集K条episode 2. 利用值网络计算方差缩减的采样优势 3. 通过自举(bootstrapping)更新累积优势网络 4. 对累积优势施加折扣和裁剪,模拟DCFR+/PDCFR+的行为 5. 通过遗憾匹配(regret matching)从累积优势计算新策略
关键设计¶
1. 自举累积优势估计
传统DeepCFR的replay buffer保留所有迭代样本,从头重新拟合累积遗憾。这与DCFR+的bootstrap更新不兼容。本文改为:每轮迭代清空buffer,仅用当前迭代采样,通过前一迭代网络的输出进行自举。
调整采样反事实值为:\(\check{v}_i^{\sigma^t}(I,a|z) = \frac{\pi^{\sigma^t}(z[I]a,z) \cdot u_i(z)}{\pi^{\xi^t}(z[I],z)}\)
关键定理(Theorem 2)证明其期望等于优势:\(\mathbb{E}[\check{r}_i^t(I,a)|z \in Z_I] = A_i^{\sigma^t}(I,a)\)
累积优势网络 \(R(I,a|\theta_i^t)\) 的训练损失基于bootstrap:
2. 近似DCFR+
在bootstrap损失中加入折扣和裁剪操作:
- \(\max(\cdot, 0)\) 裁剪负累积优势(来自CFR+的思想,减少错误动作的代价)
- \((t-1)^\alpha / ((t-1)^\alpha + 1)\) 折扣因子(来自DCFR,降低早期不准确估计的权重)
3. 近似PDCFR+
在DCFR+基础上增加预测机制:额外训练一个瞬时优势网络 \(r(I,a|\phi_i^t)\) 估计当前迭代优势,用于预测下一迭代的累积优势:
预测的累积优势通过regret matching计算新策略,利用了反事实遗憾变化缓慢的可预测性。
4. 基线方差缩减
采样单条episode的方差很大,引入历史值网络 \(Q(h,a|w^t)\) 作为基线函数(受DREAM启发):
对于采样到的动作,用值网络预测和实际采样差异的重要性采样修正;对于未采样动作,直接使用值网络估计。
损失函数 / 训练策略¶
三个网络联合训练: - 累积优势网络 \(R\):自举+折扣裁剪损失 - 瞬时优势网络 \(r\)(仅PDCFR+):标准回归损失 - 历史值网络 \(Q\):类似DQN的TD损失,off-policy训练 - 平均策略网络 \(\Pi\):加权回归损失,权重 \((t/T)^\gamma\) 使后期策略重要性更高
实验关键数据¶
主实验(收敛到均衡)¶
在8个标准IIG上比较7种无模型神经算法的可利用度(exploitability)收拾速度。主要对比:
| 方法 | Kuhn Poker | Leduc Poker | Liar's Dice | 其他5个游戏 |
|---|---|---|---|---|
| QPG/RPG | 仅Kuhn收敛到0.01 | 表现差 | 表现差 | 表现差 |
| NFSP | 收敛慢 | 收敛慢 | 收敛慢 | 中等 |
| OS-DeepCFR | 中等 | 中等 | 中等 | 中等 |
| DREAM | 较快 | 较快 | 较快 | 较快 |
| VR-DeepDCFR+ | 最快 | 最快 | 最快 | 多数最快 |
| VR-DeepPDCFR+ | 最快 | 最快 | 最快 | 多数最快 |
VR-DeepDCFR+和VR-DeepPDCFR+在大多数游戏中收敛速度最快。
大规模扑克对抗评估¶
在Flop Hold'em Poker (FHP)上对阵5种风格的规则agent,每种对战20000局:
| 方法 | 平均奖励(chips/手) |
|---|---|
| OS-DeepCFR | -7.8 ± 1.4 |
| DREAM | -2.0 ± 3.1 |
| VR-DeepDCFR+ | 11.6 ± 1.2 |
| VR-DeepPDCFR+ | 11.3 ± 0.9 |
专业德扑比赛中,每手5 chips的差距被视为显著技术差距。本文方法平均赢11+ chips,远超其他neural CFR。
消融实验¶
以VR-DeepPDCFR+为基础在4个IIG上消融三个组件: - 去掉bootstrap累积优势 → 退化为类似DeepCFR的行为,收敛变慢 - 去掉高级CFR变体(折扣+裁剪)→ 退化为近似vanilla CFR - 去掉基线方差缩减 → 方差增大,训练不稳定
三个组件均对性能有贡献。
关键发现¶
- 累积优势比累积反事实遗憾的方差更小,网络训练更稳定
- Bootstrap方式避免了大replay buffer的存储开销和从头重训的计算开销
- VR-DeepDCFR+运行时间与DREAM相当(主要差异在损失公式),但收敛更快
- 两种方法在所有游戏中使用相同超参数,泛化性好
亮点与洞察¶
- 优势替代遗憾的核心洞察:反事实遗憾 = 对手到达概率 × 优势,除以对手概率后数值尺度统一,这个简单转换解决了neural CFR的核心瓶颈
- Bootstrap + 折扣裁剪的巧妙结合:每轮迭代只需当前采样数据,配合前一轮网络输出,实现了对高级CFR变体的忠实模拟
- 理论严谨:Theorem 1和2提供了采样估计的无偏性证明,算法设计有坚实理论基础
- 工程简洁:运行时间与DREAM相当,额外开销极小,实用性强
局限性 / 可改进方向¶
- PDCFR+的优势预测假设变化缓慢(用当前迭代预测下一迭代),可考虑RNN捕捉时序依赖
- 仅在两人零和博弈中验证,多人/非零和场景的扩展未探索
- 值网络的训练质量直接影响方差缩减效果,大游戏中值网络精度可能成为瓶颈
- 超参数 \(\alpha, \gamma\) 虽然跨游戏统一,但最优值的选择缺乏理论指导
相关工作与启发¶
- DeepCFR / OS-DeepCFR:用神经网络近似CFR的开创工作,但限于vanilla/Linear CFR
- DREAM:引入值函数基线减少方差,本文继承其方差缩减方法并扩展到高级变体
- ESCHER:直接用值函数计算遗憾,但训练开销大;本文选择DREAM的轻量方案
- DCFR+ / PDCFR+:表格CFR的最新进展,本文首次实现其神经网络近似
- 对idea启发:将高级算法变体的核心操作(折扣、裁剪、预测)解耦为可在神经网络损失中实现的模块化设计
评分¶
- 新颖性: ⭐⭐⭐⭐ (首次将DCFR+/PDCFR+有效整合到neural CFR)
- 技术深度: ⭐⭐⭐⭐⭐ (理论证明+算法设计+方差分析均扎实)
- 实验充分性: ⭐⭐⭐⭐ (8个博弈+大规模扑克对抗+消融,覆盖全面)
- 写作质量: ⭐⭐⭐⭐ (前置知识铺垫充分,推导清晰)
- 实用价值: ⭐⭐⭐⭐ (代码开源,FHP上的对抗表现有实际意义)