Deep (Predictive) Discounted Counterfactual Regret Minimization¶

会议: AAAI 2026 arXiv: 2511.08174 代码: rpSebastian/DeepPDCFR 领域: 强化学习 关键词: 反事实遗憾最小化, 不完全信息博弈, 纳什均衡, 神经网络近似, 方差缩减

一句话总结¶

提出VR-DeepDCFR+和VR-DeepPDCFR+两种无模型神经CFR算法，通过自举累积优势估计、折扣裁剪机制和基线方差缩减，首次将高级表格CFR变体（DCFR+/PDCFR+）有效整合到神经网络近似框架中，在典型不完全信息博弈中实现更快收敛。

研究背景与动机¶

不完全信息博弈（IIG）是建模多玩家隐信息战略交互的基础框架，核心目标是计算（近似）纳什均衡。CFR（反事实遗憾最小化）算法族是求解IIG最成功的方法之一，通过迭代最小化累积反事实遗憾使平均策略收敛到NE。

近年来，表格CFR领域涌现了多种加速收敛的变体： - CFR+：裁剪负累积遗憾 + 线性加权平均策略 - DCFR：对累积遗憾施加折扣 - DCFR+：结合CFR+和DCFR的优势 - PDCFR+：利用遗憾的可预测性加速收敛

然而，现有神经CFR方法（如DeepCFR、DREAM）主要近似vanilla CFR或LinearCFR的行为，无法有效整合更高级的CFR变体。核心困难在于：DCFR+和PDCFR+的更新依赖前一迭代的累积反事实遗憾（bootstrap），而传统neural CFR通过replay buffer中所有迭代的样本从头拟合，两者在架构上不兼容。更深层的问题是：反事实值是由对手到达概率加权的期望效用，这些非归一化值在不同信息集间数量级差异巨大，网络难以有效学习。

方法详解¶

整体框架¶

算法的关键思路：用累积优势（advantage）替代累积反事实遗憾。优势是反事实遗憾除以对手到达概率的结果：\(r_i^t(I,a) = \pi_{-i}^{\sigma^t}(I) \cdot A_i^{\sigma^t}(I,a)\)，数值尺度更统一，神经网络更容易学习和泛化。

整体流程（每轮迭代）： 1. 用结果采样（outcome sampling）收集K条episode 2. 利用值网络计算方差缩减的采样优势 3. 通过自举（bootstrapping）更新累积优势网络 4. 对累积优势施加折扣和裁剪，模拟DCFR+/PDCFR+的行为 5. 通过遗憾匹配（regret matching）从累积优势计算新策略

关键设计¶

1. 自举累积优势估计

传统DeepCFR的replay buffer保留所有迭代样本，从头重新拟合累积遗憾。这与DCFR+的bootstrap更新不兼容。本文改为：每轮迭代清空buffer，仅用当前迭代采样，通过前一迭代网络的输出进行自举。

调整采样反事实值为：\(\check{v}_i^{\sigma^t}(I,a|z) = \frac{\pi^{\sigma^t}(z[I]a,z) \cdot u_i(z)}{\pi^{\xi^t}(z[I],z)}\)

关键定理（Theorem 2）证明其期望等于优势：\(\mathbb{E}[\check{r}_i^t(I,a)|z \in Z_I] = A_i^{\sigma^t}(I,a)\)

累积优势网络 \(R(I,a|\theta_i^t)\) 的训练损失基于bootstrap：

\[\mathcal{L}(\theta_i^t) = \mathbb{E}_{(I,\check{r}) \sim \mathcal{B}_{V,i}}\left[\sum_a \left(R(I,a|\theta_i^{t-1}) + \check{r}(I,a) - R(I,a|\theta_i^t)\right)^2\right]\]

2. 近似DCFR+

在bootstrap损失中加入折扣和裁剪操作：

\[\mathcal{L}(\theta_i^t) = \mathbb{E}\left[\sum_a \left(\max(R(I,a|\theta_i^{t-1}), 0) \cdot \frac{(t-1)^\alpha}{(t-1)^\alpha + 1} + \check{r}(I,a) - R(I,a|\theta_i^t)\right)^2\right]\]

\(\max(\cdot, 0)\) 裁剪负累积优势（来自CFR+的思想，减少错误动作的代价）
\((t-1)^\alpha / ((t-1)^\alpha + 1)\) 折扣因子（来自DCFR，降低早期不准确估计的权重）

3. 近似PDCFR+

在DCFR+基础上增加预测机制：额外训练一个瞬时优势网络 \(r(I,a|\phi_i^t)\) 估计当前迭代优势，用于预测下一迭代的累积优势：

\[\max\left(R(I,a|\theta_i^t), 0\right) \cdot \frac{t^\alpha}{t^\alpha + 1} + r(I,a|\phi_i^t)\]

预测的累积优势通过regret matching计算新策略，利用了反事实遗憾变化缓慢的可预测性。

4. 基线方差缩减

采样单条episode的方差很大，引入历史值网络 \(Q(h,a|w^t)\) 作为基线函数（受DREAM启发）：

\[\bar{v}_i^{\sigma^t}(I,a|z) = \begin{cases} Q_i(h,a|w^{t-1}) + \frac{\bar{v}_i(I'|z) - Q_i(h,a|w^{t-1})}{\xi^t(I,a)} & \text{if } a = \hat{a} \\ Q_i(h,a|w^{t-1}) & \text{otherwise} \end{cases}\]

对于采样到的动作，用值网络预测和实际采样差异的重要性采样修正；对于未采样动作，直接使用值网络估计。

损失函数 / 训练策略¶

三个网络联合训练： - 累积优势网络 \(R\)：自举+折扣裁剪损失 - 瞬时优势网络 \(r\)（仅PDCFR+）：标准回归损失 - 历史值网络 \(Q\)：类似DQN的TD损失，off-policy训练 - 平均策略网络 \(\Pi\)：加权回归损失，权重 \((t/T)^\gamma\) 使后期策略重要性更高

实验关键数据¶

主实验（收敛到均衡）¶

在8个标准IIG上比较7种无模型神经算法的可利用度（exploitability）收拾速度。主要对比：

方法	Kuhn Poker	Leduc Poker	Liar's Dice	其他5个游戏
QPG/RPG	仅Kuhn收敛到0.01	表现差	表现差	表现差
NFSP	收敛慢	收敛慢	收敛慢	中等
OS-DeepCFR	中等	中等	中等	中等
DREAM	较快	较快	较快	较快
VR-DeepDCFR+	最快	最快	最快	多数最快
VR-DeepPDCFR+	最快	最快	最快	多数最快

VR-DeepDCFR+和VR-DeepPDCFR+在大多数游戏中收敛速度最快。

大规模扑克对抗评估¶

在Flop Hold'em Poker (FHP)上对阵5种风格的规则agent，每种对战20000局：

方法	平均奖励（chips/手）
OS-DeepCFR	-7.8 ± 1.4
DREAM	-2.0 ± 3.1
VR-DeepDCFR+	11.6 ± 1.2
VR-DeepPDCFR+	11.3 ± 0.9

专业德扑比赛中，每手5 chips的差距被视为显著技术差距。本文方法平均赢11+ chips，远超其他neural CFR。

消融实验¶

以VR-DeepPDCFR+为基础在4个IIG上消融三个组件： - 去掉bootstrap累积优势 → 退化为类似DeepCFR的行为，收敛变慢 - 去掉高级CFR变体（折扣+裁剪）→ 退化为近似vanilla CFR - 去掉基线方差缩减 → 方差增大，训练不稳定

三个组件均对性能有贡献。

关键发现¶

累积优势比累积反事实遗憾的方差更小，网络训练更稳定
Bootstrap方式避免了大replay buffer的存储开销和从头重训的计算开销
VR-DeepDCFR+运行时间与DREAM相当（主要差异在损失公式），但收敛更快
两种方法在所有游戏中使用相同超参数，泛化性好

亮点与洞察¶

优势替代遗憾的核心洞察：反事实遗憾 = 对手到达概率 × 优势，除以对手概率后数值尺度统一，这个简单转换解决了neural CFR的核心瓶颈
Bootstrap + 折扣裁剪的巧妙结合：每轮迭代只需当前采样数据，配合前一轮网络输出，实现了对高级CFR变体的忠实模拟
理论严谨：Theorem 1和2提供了采样估计的无偏性证明，算法设计有坚实理论基础
工程简洁：运行时间与DREAM相当，额外开销极小，实用性强

局限性 / 可改进方向¶

PDCFR+的优势预测假设变化缓慢（用当前迭代预测下一迭代），可考虑RNN捕捉时序依赖
仅在两人零和博弈中验证，多人/非零和场景的扩展未探索
值网络的训练质量直接影响方差缩减效果，大游戏中值网络精度可能成为瓶颈
超参数 \(\alpha, \gamma\) 虽然跨游戏统一，但最优值的选择缺乏理论指导

评分¶

新颖性: ⭐⭐⭐⭐ （首次将DCFR+/PDCFR+有效整合到neural CFR）
技术深度: ⭐⭐⭐⭐⭐ （理论证明+算法设计+方差分析均扎实）
实验充分性: ⭐⭐⭐⭐ （8个博弈+大规模扑克对抗+消融，覆盖全面）
写作质量: ⭐⭐⭐⭐ （前置知识铺垫充分，推导清晰）
实用价值: ⭐⭐⭐⭐ （代码开源，FHP上的对抗表现有实际意义）